自動駕駛是一種使用計算機技術和傳感器等設備使汽車或其他交通工具能夠在沒有人類司機干預的情況下自主駕駛的技術。基本原理是通過傳感器(如激光雷達、攝像頭、雷達等)實時感知識別車輛及周邊環境(道路、交通標志、障礙物和其他交通參與者)等情況,再通過智能系統進行規劃決策,最后通過控制系統執行駕駛操作。
自動駕駛實現的過程,簡單的來說是從感知、決策到執行,整個過程的實現對于人工智能(AI)/機器學習(ML)有著很深的應用和依賴。因此,自動駕駛發展的瓶頸主要在于這些AI算法模型上的突破。為了找到最佳的AI算法模型,算法工程師需要不斷地調整超參數,對每天的路測數據進行處理,反復訓練優化自動駕駛模型,并進行大量驗證測試工作,以迭代出更準確的算法,這些工作的背后需要大量算力資源(GPU資源)。
自動駕駛訓練帶來的挑戰
訓練一個自動駕駛方案依賴大量的真實數據,數據采集車配備多個傳感器進行數據采集,并將采集到的數據傳輸到深度學習GPU集群用于訓練、學習以構建更智能的駕駛決策算法。數據采集車通常使用6-10個攝像頭、4-6個雷達和2-4個激光雷達,它們都有不同的分辨率和距離范圍,保守估算,一輛測試車每天產生的數據量可達 10 TB。
更大規模的數據集與更短的訓練時間的訴求, 僅依靠單張 GPU、甚至單臺 GPU 服務器已經無法滿足自動駕駛 AI 訓練的要求,多機多卡 GPU 計算集群成為必然選擇。
另外,AI模型越龐大,模型參數越多,訓練過程中的通信消耗也越大。一些大型 AI 模型的訓練過程中,通信時間消耗占比已經超過 50%。在優化端到端的性能時,我們既需要考慮服務器內部的通信,也需要優化服務器外部的通信。