自動(dòng)駕駛的系統(tǒng)分為感知、決策和執(zhí)行三大模塊,車內(nèi)外的數(shù)據(jù)流是以感知為始,車輛的執(zhí)行為終,整個(gè)系統(tǒng)和計(jì)算機(jī)系統(tǒng)類似輸入信息——計(jì)算處理——輸出結(jié)果。感知模塊作為自動(dòng)駕駛系統(tǒng)的初始條件輸入,一定程度上決定著自動(dòng)駕駛系統(tǒng)的下限,同樣,機(jī)器視覺從感知到認(rèn)知的進(jìn)化過程中,自動(dòng)駕駛將會(huì)是一個(gè)重要的應(yīng)用場(chǎng)景,汽車的智能化也是機(jī)器智能的子領(lǐng)域。人類對(duì)機(jī)器智能的探索過程也是人類不斷對(duì)物理世界開展計(jì)算的過程,1950年英國(guó)計(jì)算機(jī)科學(xué)家圖靈提出的圖靈測(cè)試,通過模擬一個(gè)智能對(duì)話來判斷機(jī)器是否具備人類水平的智能,本質(zhì)上也是對(duì)數(shù)字計(jì)算能力的邊界探索。自動(dòng)駕駛也是汽車周圍環(huán)境的數(shù)字計(jì)算處理,也是不斷逼近模擬真實(shí)物理世界的過程。
從人類科學(xué)的發(fā)展歷程中可以發(fā)現(xiàn),所有新技術(shù)新產(chǎn)品的基礎(chǔ)都是物理方法和數(shù)學(xué)理論的支撐。自動(dòng)駕駛是在計(jì)算機(jī)體系的大廈上建造的自動(dòng)駕駛系統(tǒng)具備甚至超越人類的駕駛水平,目標(biāo)的參照物是以人為核心,實(shí)現(xiàn)智能化產(chǎn)品的需求管理、設(shè)計(jì)方法、交互邏輯。所以,自動(dòng)駕駛系統(tǒng)和人的生物系統(tǒng)具有相似性,這種相似性主要體現(xiàn)在兩個(gè)層面。
第一個(gè)層面是系統(tǒng)層面。從生物學(xué)的角度看,人的眼睛是人類器官中最重要的器官,居五官之首。視覺在人們認(rèn)識(shí)客觀世界的過程中起到極其重要的作用,通常外界環(huán)境感知信息90%是由視覺完成。同理在自動(dòng)駕駛系統(tǒng)中,環(huán)境感知中的視覺扮演著十分重要的角色,尤其是在特斯拉汽車的純視覺自動(dòng)駕駛系統(tǒng)的影響和產(chǎn)品落地成本壓力之下,單傳感器的視覺在自動(dòng)駕駛系統(tǒng)中的重要性更加明顯。
自動(dòng)駕駛的技術(shù)探索也是發(fā)起在計(jì)算機(jī)視覺領(lǐng)域,在上世紀(jì)70年代自動(dòng)駕駛技術(shù)在學(xué)術(shù)界的探索期,視覺算法主要是基于簡(jiǎn)單的規(guī)則和啟發(fā)式方法來處理和識(shí)別簡(jiǎn)單的形狀和模式;90年代,計(jì)算機(jī)在處理速度和存儲(chǔ)技術(shù)方面性能提高,計(jì)算機(jī)視覺系統(tǒng)應(yīng)用范圍進(jìn)一步擴(kuò)大,自動(dòng)駕駛技術(shù)的探索開始萌芽;2010年左右,深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域廣泛發(fā)展,神經(jīng)網(wǎng)絡(luò)算法引入自動(dòng)駕駛視覺感知算法之中,自動(dòng)駕駛系統(tǒng)的感知效果有了質(zhì)的提升,與此同時(shí)自動(dòng)駕駛成為科技領(lǐng)域的新風(fēng)口,資本和創(chuàng)業(yè)者涌入自動(dòng)駕駛賽道??梢哉f自動(dòng)駕駛技術(shù)的進(jìn)步也是計(jì)算機(jī)視覺技術(shù)發(fā)展的歷程,視覺能否實(shí)現(xiàn)無人駕駛有待驗(yàn)證,但是自動(dòng)駕駛一定是需要視覺技術(shù)的支撐;
第二個(gè)層面是更深一點(diǎn)的視覺技術(shù)層面。在對(duì)物理世界的感知層面,相比圖靈機(jī)時(shí)代的符號(hào)主義,以聯(lián)結(jié)主義時(shí)代通過模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法模型進(jìn)一步拉近了數(shù)字世界和物理世界的距離,首先是神經(jīng)網(wǎng)絡(luò)中感知機(jī)所用的元模型最早是在1943年提出的M-P模型,該模型將輸入信號(hào)進(jìn)行加權(quán)平均運(yùn)算,若超過某一個(gè)閾值則向后傳遞信號(hào)否則被抑制,有點(diǎn)類似半導(dǎo)體的二極管原理很通俗易懂,但是實(shí)現(xiàn)的方式和效果卻需要一定的工程能力;
其次模型訓(xùn)練的理論依據(jù)是在1949年提出的赫布學(xué)習(xí)規(guī)則。所以說,人類對(duì)智能的探索從未停止過,1956年達(dá)特茅斯會(huì)議首次提出人工智能的概念發(fā)展至今,隨著數(shù)據(jù)和算力的提升,人工智能又迎來一次躍遷。在計(jì)算機(jī)視覺感知領(lǐng)域以神經(jīng)網(wǎng)絡(luò)為主干可以劃分為小模型時(shí)期和當(dāng)下流行的大模型時(shí)期,小模型的代表是深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等等,大模型的代表是Transformer架構(gòu)。
從小模型到大模型并不是理論上的顛覆和切換,首先是視覺算法技術(shù)的延續(xù),正是這種延續(xù)性和相似性讓視覺感知的商業(yè)化范圍擴(kuò)大,間接的影響自動(dòng)駕駛乃至智能化的技術(shù)發(fā)展;其次是用物理的思維認(rèn)知數(shù)字世界。從神經(jīng)網(wǎng)絡(luò)的變化過程中可以看出這一趨勢(shì),深度神經(jīng)網(wǎng)絡(luò)是多層感知機(jī)網(wǎng)絡(luò),具有三個(gè)基本類型的層,輸入層、隱藏層和輸出層,不同層之間的感知機(jī)是全連接,逐層單向傳遞信號(hào),本質(zhì)上是對(duì)像素點(diǎn)的一一對(duì)比學(xué)習(xí)。在自動(dòng)駕駛感知中,輸入層得到的數(shù)據(jù)是圖像,而圖像是一個(gè)多維的數(shù)據(jù),在識(shí)別的過程中需要設(shè)置大量輸入神經(jīng)元及多個(gè)隱藏層,顯然這種神經(jīng)網(wǎng)絡(luò)模型的參數(shù)量很大,結(jié)果就是訓(xùn)練難度增大并且算力要求很高。
在物理學(xué)上,伽利略經(jīng)典的兩個(gè)鐵球同時(shí)落地的實(shí)驗(yàn)標(biāo)志著科學(xué)的新紀(jì)元,物理方法的核心是尋找事物所遵守的基本法則和原則,例如無論圓的半徑多大,圓周率是不變的、伽利略推翻亞里士多德的理論,證明物體下落的快慢和物體的重量無關(guān),例如測(cè)量國(guó)界線的長(zhǎng)度,即使在歐幾里得幾何圖形中也無法用米尺測(cè)量,但是可以在地圖中使用比例尺和測(cè)量單位的手段獲得界限的長(zhǎng)度。在這個(gè)過程中,物理世界和數(shù)字之間的邏輯關(guān)系是不變的,通過事物的特征獲取了事物的全貌。這種思路在視覺感知領(lǐng)域的應(yīng)用正如一張圖片中人臉的識(shí)別,并不需要對(duì)每個(gè)像素點(diǎn)進(jìn)行一一對(duì)比學(xué)習(xí),而是先搜索臉部輪廓以及五官及其他特征,當(dāng)這些特征同時(shí)出現(xiàn)時(shí),就可以判定圖片中是人臉,這種思路在算法中就是卷積神經(jīng)網(wǎng)絡(luò),本質(zhì)上是在數(shù)據(jù)輸入深度神經(jīng)網(wǎng)絡(luò)之前進(jìn)行數(shù)據(jù)的特征提取后的降維,從而提高神經(jīng)網(wǎng)絡(luò)的運(yùn)行效率,降低對(duì)算力的要求。
然而在卷積神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行特征提取降維之后會(huì)丟失一些有價(jià)值的信息,忽略整體和局部之間的關(guān)聯(lián)性,這種關(guān)聯(lián)性除了空間還有時(shí)間序列的關(guān)聯(lián)。例如再回到人臉識(shí)別的例子中,神經(jīng)網(wǎng)絡(luò)提取了臉部輪廓和五官的特征之后就可以判定是人臉,但是在一張圖片中,如果五官和臉部輪廓是分離的,按照卷積神經(jīng)網(wǎng)絡(luò)仍然有概率將圖片識(shí)別為人臉。第二例子,在自動(dòng)駕駛中,視覺感知需要完成目標(biāo)的跟蹤以及盲區(qū)的預(yù)測(cè)等任務(wù),這就需要在神經(jīng)網(wǎng)絡(luò)中具備處理時(shí)間序列的信息。這就是在傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)中的隱藏層中引入循環(huán),也就是在每一個(gè)隱藏層上的感知機(jī)都有上一時(shí)刻的隱藏層上而所有記憶連接,在輸出層的體現(xiàn)除了輸出當(dāng)前時(shí)刻的輸入信息以外,又加入了之前某時(shí)刻的輸出相關(guān)。這樣一來,在感知算法層面可以實(shí)現(xiàn)時(shí)間和空間的計(jì)算和擴(kuò)展,物理中的體現(xiàn)即為維度的處理過程。循環(huán)神經(jīng)網(wǎng)絡(luò)的弊端在于硬件需要更大的緩存同時(shí)整個(gè)網(wǎng)絡(luò)對(duì)數(shù)據(jù)的并行處理能力下降從而限制計(jì)算效率。
在物理領(lǐng)域,一般機(jī)械效率的計(jì)算是輸出功與輸入功的百分比,做功的多少也是和時(shí)間和空間緊密相關(guān)。而在算法領(lǐng)域,算法的效率分析主要分為兩類,第一類是時(shí)間效率,也就是時(shí)間復(fù)雜度,主要是衡量算法的運(yùn)行速度;第二種是空間效率,也就是空間復(fù)雜度,主要衡量運(yùn)行算法所需要的額外空間,典型的例如硬件存儲(chǔ)。無論是物理還是數(shù)字算法都在時(shí)間和空間的維度進(jìn)行優(yōu)化,提升系統(tǒng)的運(yùn)轉(zhuǎn)效率,同時(shí)這兩個(gè)維度也是一切系統(tǒng)和產(chǎn)品設(shè)計(jì)最本源的出發(fā)點(diǎn)。在感知算法層面,空間的體現(xiàn)就是泛化性,時(shí)間的體現(xiàn)就是并行計(jì)算效率。小模型的時(shí)代,神經(jīng)網(wǎng)絡(luò)只能處理標(biāo)準(zhǔn)過的物體進(jìn)行相似性比對(duì),通過不斷地對(duì)比學(xué)習(xí)完成識(shí)別任務(wù),存在存儲(chǔ)時(shí)間長(zhǎng)度有限以及順序依賴的問題。
2017年谷歌發(fā)表論文提出Transformer網(wǎng)絡(luò)架構(gòu),其基本思想是假設(shè)一個(gè)有邏輯的序列,關(guān)鍵是為每一個(gè)元素(token)找到其他元素(token)的關(guān)系權(quán)重。Transformer網(wǎng)絡(luò)架構(gòu)最早是在自然語(yǔ)言處理領(lǐng)域大殺四方,自然語(yǔ)言處理是一個(gè)序列任務(wù),Transformer網(wǎng)絡(luò)架構(gòu)處理自然語(yǔ)言處理中有天然的優(yōu)勢(shì)。2020年,Vision transformer網(wǎng)絡(luò)將圖片按序列切成小片后再輸入到transformer模型架構(gòu)中,標(biāo)志著transformer正式進(jìn)入計(jì)算機(jī)視覺感知領(lǐng)域。從語(yǔ)言語(yǔ)音處理到視覺圖像處理,也是視覺感知技術(shù)從規(guī)則經(jīng)驗(yàn)到數(shù)據(jù)驅(qū)動(dòng)的過程,語(yǔ)言處理的本質(zhì)是信號(hào)的處理,Transformer網(wǎng)絡(luò)架構(gòu)的應(yīng)用將語(yǔ)言語(yǔ)音和視覺圖像集中到了統(tǒng)一的基礎(chǔ)框架之下,再次凸顯出物理方法在數(shù)字算法領(lǐng)域的應(yīng)用。Transformer網(wǎng)絡(luò)架構(gòu)引入了注意力機(jī)制,只對(duì)重要的信息關(guān)注而非全部的信息,在時(shí)間性方面具有更高的并行計(jì)算效率,在空間性能方面具有更強(qiáng)的泛化性。
2021年特斯拉汽車在AI day上展示了Transformer網(wǎng)絡(luò)架構(gòu)在自動(dòng)駕駛領(lǐng)域的應(yīng)用,預(yù)示著自動(dòng)駕駛視覺感知技術(shù)正式進(jìn)入大模型時(shí)代。
自然語(yǔ)言處理和圖像識(shí)別二者都可以統(tǒng)一在信息論的技術(shù)框架之下,而自然語(yǔ)言是一個(gè)時(shí)間序列的輸入,而圖像識(shí)別會(huì)涉及到維度空間的變化,理解維度的變化也就是認(rèn)知世界坐標(biāo)的變化。BEV鳥瞰圖是將三維視角進(jìn)行降維,以“上帝視角”描述感知物理世界的坐標(biāo),所以不僅僅是應(yīng)用在純視覺、也可以是多源傳感器融合甚至在車路協(xié)同中。也就是說,BEV+Transformer網(wǎng)絡(luò)架構(gòu)的大模型在一定程度上可以解決自動(dòng)駕駛感知的時(shí)間性和空間性的問題,感知效果將會(huì)有質(zhì)的提升,但是是否會(huì)成為終極的自動(dòng)駕駛感知方案仍然需要產(chǎn)品和技術(shù)發(fā)展的驗(yàn)證。
從特斯拉汽車到國(guó)內(nèi)自動(dòng)駕駛相關(guān)的企業(yè)的策略中可以看出,自動(dòng)駕駛的下一個(gè)競(jìng)爭(zhēng)場(chǎng)景是城市輔助駕駛,相比以前高速場(chǎng)景,城市場(chǎng)景首先是出現(xiàn)頻率更高,用戶更加剛需;其次城市場(chǎng)景面臨的長(zhǎng)尾問題更加復(fù)雜,更加能體現(xiàn)技術(shù)的領(lǐng)先性;最后城市場(chǎng)景更加偏向C端市場(chǎng),這就意味著對(duì)自動(dòng)駕駛系統(tǒng)的成本約束更大。BEV+Transformer網(wǎng)絡(luò)架構(gòu)的大模型現(xiàn)階段可以在底層技術(shù)上提高算法效率同時(shí)增加了算法的可擴(kuò)展性,下一步需要考慮的就是成本問題,在自動(dòng)駕駛系統(tǒng)上做減法。
第一階段、降低高精度地圖的輸入權(quán)重。首先有個(gè)大前提,所有的智能體一定是需要地圖的,地圖是理解物理世界的空間分布、相關(guān)關(guān)系和發(fā)展趨勢(shì)的重要手段。車載高精度地圖數(shù)據(jù)規(guī)模巨大,制圖和更新耗費(fèi)資源較多,地圖的精度和系統(tǒng)的成本出現(xiàn)博弈。在BEV空間坐標(biāo)下,自動(dòng)駕駛車輛通過將不同視角的視覺圖像統(tǒng)一轉(zhuǎn)換到上帝視角,相當(dāng)于實(shí)時(shí)生成地圖信息,為決策規(guī)劃提供道路拓?fù)湫畔ⅰK?,行業(yè)內(nèi)“輕地圖、重感知”成為自動(dòng)駕駛當(dāng)前的主流方案。例如小鵬汽車,增加車載算力,利用多相機(jī)和雷達(dá)數(shù)據(jù)融合,直接輸出BEV下交通參與者的靜態(tài)和動(dòng)態(tài)信息,一定程度上具備了實(shí)時(shí)生成地圖的能力。這一點(diǎn)小鵬汽車、毫末智行等國(guó)內(nèi)眾多的視覺方案和特斯拉是相似的。解決一個(gè)問題,新的問題又出現(xiàn)了,純視覺方案的******的問題在于在訓(xùn)練集中沒有出現(xiàn)過的物體,系統(tǒng)是無法識(shí)別的,也就意味著現(xiàn)階段的純視覺技術(shù)一定會(huì)有約束性,長(zhǎng)尾問題一直存在。
第二階段、占用網(wǎng)絡(luò),將視覺識(shí)別體素化。2022年特斯拉汽車在AI day上展示了Occupancy Network新一代的視覺感知技術(shù),先將三維空間劃分為體素(小立方體),再去預(yù)測(cè)每個(gè)體素是被占用還是空閑,通過體素的概率值預(yù)測(cè)可行駛區(qū)域。BEV是一個(gè)2D的圖像空間,而占用網(wǎng)絡(luò)是升級(jí)為3D的處理空間,這樣就可以通過視覺技術(shù)彌補(bǔ)部分激光雷達(dá)的作用。并且在特斯拉汽車在HW4.0中預(yù)留了4D毫米波雷達(dá)接口,這是彌補(bǔ)視覺算法中識(shí)別物的高度信息。
第三階段、基于大模型的端到端自動(dòng)駕駛模型。端到端的自動(dòng)駕駛系統(tǒng)本質(zhì)目標(biāo)是建立一個(gè)驅(qū)動(dòng)模型,以時(shí)間為序列將輸入信息映射到控制執(zhí)行側(cè)。在自動(dòng)駕駛行業(yè)初期,2016年英偉達(dá)發(fā)表論文《End to End Learning for Self-driving Cars 》介紹了實(shí)現(xiàn)車道保持功能的端到端模型。一時(shí)間端到端的方法成就了眾多的自動(dòng)駕駛demo車,然而面對(duì)嵌入式量產(chǎn)成本和可解釋性的要求,自動(dòng)駕駛的端到端方法逐漸被冷落,這也是眾多自動(dòng)駕駛創(chuàng)業(yè)公司面對(duì)量產(chǎn)出現(xiàn)的根本性的難題。
大模型在視覺感知領(lǐng)域的興起又一次將端到端的方法引入到自動(dòng)駕駛行業(yè)。2023年CVPR******論文《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動(dòng)駕駛),論文首次提出感知決策一體化的自動(dòng)駕駛通用大模型UniAD,開創(chuàng)了以全局任務(wù)為目標(biāo)的自動(dòng)駕駛大模型架構(gòu)先河,提高了自動(dòng)駕駛系統(tǒng)的擴(kuò)展性。在今年CVPR的workshop中,特斯拉汽車的感知負(fù)責(zé)人也發(fā)表演講,介紹了通過BEV網(wǎng)絡(luò)進(jìn)行特征提取后建立的基礎(chǔ)模型——World Model,然后可以通過微調(diào)來實(shí)現(xiàn)下游任務(wù),這種方法和語(yǔ)言大模型中的預(yù)訓(xùn)練+微調(diào)的范式很像,以World Model作為自動(dòng)駕駛基礎(chǔ)模型下游任務(wù)包括占用、路面、物體、車道線、紅綠燈。雖然特斯拉汽車并沒有明確押注大模型的端到端自動(dòng)駕駛方向,但是可以肯定的是他們一定也在這方面有探索嘗試,具體就看今年的AIday是否會(huì)有驚喜。
理想汽車在6月份的家庭科技日發(fā)布自動(dòng)駕駛技術(shù)進(jìn)展,采用BEV大模型,實(shí)時(shí)感知和理解環(huán)境中的道路結(jié)構(gòu)信息,針對(duì)復(fù)雜路況、使用自研的神經(jīng)先驗(yàn)網(wǎng)絡(luò)提前進(jìn)行路口神經(jīng)先驗(yàn)網(wǎng)絡(luò)特征的提取和存儲(chǔ),再與車端感知大模型融合得到感知結(jié)果。,針對(duì)信號(hào)燈識(shí)別,訓(xùn)練了端到端的信號(hào)燈意圖網(wǎng)絡(luò),用大模型可以實(shí)現(xiàn)端到端信號(hào)燈意圖識(shí)別。
從生物學(xué)的角度來看,端到端的方法更類似人類的信息處理過程。然而端到端需要大量的數(shù)據(jù)訓(xùn)練并且存在不可解釋性。這一點(diǎn)和當(dāng)年飛機(jī)的出現(xiàn)有點(diǎn)相似,鳥飛派和空氣動(dòng)力學(xué)派最終勝出的是空氣動(dòng)力學(xué)派。按照這種思路,端到端的方法將會(huì)是一條斷頭路,但是在AI時(shí)代,一切基礎(chǔ)原理都有可能被重構(gòu),所以未來自動(dòng)駕駛是基于大模型的端到端還是從場(chǎng)景到駕駛行為的映射不好預(yù)測(cè),唯一可以確定的就是大模型時(shí)代端到端方法也是一條探索自動(dòng)駕駛的新途徑。
無論是自動(dòng)駕駛產(chǎn)品還是底層算法,人類的目標(biāo)始終都是通過數(shù)字無限逼近真實(shí)物理世界,在科學(xué)的范疇之內(nèi),物理世界理論上是可以測(cè)量計(jì)算的,例如前面提到人的視覺可以處理90%的信息。然而人類的肉眼只能看到5%的世界,例如電磁波,超聲波這些視覺是無法感知到,所以作為一個(gè)機(jī)器智能體,應(yīng)該是在時(shí)間維度和空間維度領(lǐng)先于人類,而不是和人類持平。作者: