突破無人區(qū):理想VLA的爆發(fā)時刻
近期,新能源車圈出現(xiàn)了一個不尋常的變化——各家都把自己的“自動駕駛”宣傳改為“輔助駕駛”。
究其原因,是4月16日,工信部的一次會議強調(diào),汽車生產(chǎn)企業(yè)需明確系統(tǒng)功能邊界和安全響應措施,禁止夸大和虛假宣傳。
而在這場會議之前,理想汽車的CEO李想就已經(jīng)呼吁,媒體和行業(yè)應該統(tǒng)一自動駕駛的標準,在推廣上克制,在技術(shù)上投入。
前不久,2025理想AI Talk第二季播出,節(jié)目中李想更是談到了一個輔助駕駛的行業(yè)痛點:
大模型有了,輔助駕駛也有了,但專門適配輔助駕駛的大模型呢?
在今年英偉達2025春季GTC大會上,理想汽車VLA司機大模型,正式亮相。
在李想看來,VLA模型是解決AI與輔助駕駛交互難題最有效的方法。
在產(chǎn)品形態(tài)呈現(xiàn)上,它既是智能體,又是專屬司機。
在傳統(tǒng)輔助駕駛企業(yè)聚焦感知算法時,理想VLA司機大模型選擇的路線是:
攻占行業(yè)里的“技術(shù)無人區(qū)”。
在過去一年中,智能駕駛領(lǐng)域的技術(shù)經(jīng)歷了一次深刻的變革,其代表,就是端到端架構(gòu)成為輔助駕駛領(lǐng)域的技術(shù)熱點。
所謂“端到端”,區(qū)別于之前市場上技術(shù)路徑——模塊化規(guī)則(rule-based)。
模塊化規(guī)則把輔助駕駛系統(tǒng)分成感知、決策、執(zhí)行三個大類,通過激光雷達等傳感器,先感知周圍有什么,再做個決策,再告訴汽車怎么做。
三個模塊,每一層傳遞都有信息損耗,而且,流程很呆板,會遇到很多錯誤。
而 “端到端” 就是把三個核心模塊整合在一起,傳感器端收集信息,輸出的是形式軌跡,全都由一個模型實現(xiàn),中間沒有任何規(guī)則。
舉個例子,車在自動駕駛時,遇到一輛大貨車靠近,按照模塊化規(guī)則,大概率就是剎車減速。
但人開車不會那么笨,而是會想自己是不是開太慢了?或者大貨車要變道?然后一腳油門,遠離貨車。
端到端,就是像人類一樣,將傳統(tǒng)輔助駕駛的感知-預測-規(guī)劃-控制這些子模塊全部神經(jīng)網(wǎng)絡化,用先進的算法模型,來取代傳統(tǒng)的算法和人工編寫的規(guī)則。
在國內(nèi),去年7月,理想在行業(yè)內(nèi)率先實現(xiàn)了全國無圖 NOA(導航輔助駕駛),同時推出了全球首創(chuàng)的端到端(快系統(tǒng))+VLM(慢系統(tǒng))架構(gòu),并于去年10月完成全面落地,備受行業(yè)關(guān)注。
?在李想看來,理想汽車的輔助駕駛技術(shù)演進分為三個階段:
第一階段(昆蟲級智能),是2021年,和同行一樣,依賴規(guī)則算法和高精地圖,去做輔助駕駛。
但李想清楚,僅憑目前市場上百萬參數(shù)的規(guī)模,車企面對復雜路況,很容易束手無策,距離真正的自動駕駛,距離太遠。
所以在第二個階段(哺乳動物級智能),理想開始主動引入端到端+VLM架構(gòu),實現(xiàn)全場景端到端能力,擺脫地圖依賴。
真正讓高級輔助駕駛成為用戶放心、好用的一個選擇,而不是宣傳上的噱頭。
如今,李想更是提出,要實現(xiàn)“人類級智能”的第三個階段。
而這一躍遷的核心,就在于將AI大模型和算法、語音交互等多模態(tài)進行融合,讓汽車可以通過視覺感知理解3D物理世界(如車道線、動態(tài)物體),語言模型解析指令語義,再結(jié)合擴散模型生成擬人化駕駛軌跡,形成“感知-思考-行動”閉環(huán)。
簡單點說,就是突破端到端的局限,讓汽車學會像人一樣思考。
理想VLA司機大模型就是這樣的一個產(chǎn)物,它將空間智能、認知智能統(tǒng)一在一個模型里,并賦予了模型的3D空間理解、邏輯推理和行為生成能力,讓自動駕駛能夠感知、思考和適應環(huán)境。
它既是一個能與用戶、理解用戶意圖的智能體,也是一名聽得懂、看得見、找得到的專屬司機。
區(qū)別于現(xiàn)在很多車企輔助駕駛系統(tǒng)和語音大模型的應用割裂,理想汽車打破端到端+VLM兩個獨立模型的上限天花板,并不是簡單地將端到端模型和VLM模型兩者結(jié)合在一起,所有模塊都是全新設(shè)計。而這在行業(yè)內(nèi),還是第一次。因為目前市場上還沒有一輛智能車,既有大模型對話,又突破了多模態(tài)協(xié)同效率。
李想解釋說:“(VLA)訓練過程就像人類司機成長。”
司機的成長,一是駕校階段,二是常年的訓練,尤其是高強度的訓練,要經(jīng)歷復雜路況等等。
VLA的訓練也是分為預訓練、后訓練和強化訓練三個環(huán)節(jié),預訓練相當于人類在學習科目一的基本知識,通過大量高清2D和3D Vision(視覺)數(shù)據(jù)、交通相關(guān)的Language(語言)語料,以及與物理世界相關(guān)的VL(Vision-Language,視覺和語言)聯(lián)合數(shù)據(jù),訓練出云端的VL基座模型,并通過蒸餾轉(zhuǎn)化為在車端高效運行的端側(cè)模型。
后訓練相當于去駕校學習真實開車的過程,強化訓練則類似于人類在社會中實際開車練習。經(jīng)過預訓練、后訓練和強化訓練后,VLA司機大模型即可部署至車端運行。
目標是讓VLA司機大模型更加安全、舒適,對齊人類價值觀,甚至超越人類駕駛水平。
當然,僅僅從技術(shù)開拓無人區(qū),還并不能滿足李想的預想。
既然大模型要像人一樣開車,也要像人一樣遵守道德和法律。
只有做到車技下限能力的可控,才能真正讓自動駕駛成為一種可靠的選擇。
而提升AGI產(chǎn)品的下限能力關(guān)鍵就在于使其符合人類的利益,將自動駕駛表現(xiàn)與人類習慣對齊。
為此,理想又在“價值對齊無人區(qū)”開辟了一個新戰(zhàn)場。
理想加入輔助駕駛倫理概念,將交通法規(guī)、社會公序良俗轉(zhuǎn)化為機器可執(zhí)行的約束規(guī)則。
比如說,有些彎道限速60時,其他車輛保持60碼的速度,但自動駕駛的車受到固定算法的限制,用30碼的速度開,如此一來,不僅對車輛造成危險,對很多車主來說,也是件頭疼的事。
這個時候,理想VLA司機大模型就會自動學習,與其他車輛進行速度對齊,以60碼的速度行駛,也更符合法規(guī)常識。
此外,在惡劣天氣下,當激光雷達、攝像頭被遮擋或污染時,VLA司機大模型也會及時、準確地告知用戶。
那么,理想是怎么實現(xiàn)這種對齊的呢?
基于人類反饋的強化學習(RLHF),以人類是否接管作為反饋,進行強化訓練,跟人類駕駛對齊。在模型上限不變的情況下,理想汽車從舒適性、安全性、邏輯選擇變道等層面入手,使其盡量與人類習慣保持一致。
比如,VLA會在轉(zhuǎn)彎時像人類一樣自動減速,或者在并線時留出足夠的安全距離。
這套超級對齊系統(tǒng),能夠基于對人類駕駛行為的深度學習,實時進化,并自動觸發(fā)模型微調(diào),將輔助駕駛的表現(xiàn)與人類駕駛表現(xiàn)對齊,讓VLA“開得比人類更好”。
挺進無人區(qū)是件艱難的事情,但李想也坦言,VLA的成功離不開中國AI的崛起。
他表示,DeepSeek、通義千問等模型的出現(xiàn)讓中國AI水平迅速接近美國。
其中,DeepSeek所秉持的開源精神尤為令人振奮,“獨行快,眾行遠”,這也促使了理想開源星環(huán)OS。
李想稱:“這不是出于公司戰(zhàn)略考量,DeepSeek給我們那么大幫助,我們應該為社會貢獻點什么。”
面對目前行業(yè)智能汽車“重復造輪子”的困境,理想的“做點什么”,就是打破模型和模型,輔助駕駛和輔助駕駛之間的生態(tài)壁壘。
在2025的中關(guān)村論壇年會上,李想就公開宣布,理想汽車將成為全球首家將汽車操作系統(tǒng)開源的汽車企業(yè)。將自家的理想星環(huán)OS,主動開放給友商。
相較大量傳統(tǒng)車企仍在使用的行業(yè)頭部閉源AUTOSAR操作系統(tǒng),星環(huán)OS的核心性能、安全性、成本效率、適配性和靈活性等指標,都實現(xiàn)了行業(yè)領(lǐng)先。
比如,對于最新的AI學習芯片,理想星環(huán)的適配周期大概需要4周的時間,相比于使用AUTOSAR時節(jié)省了約5個月的時間。
大幅提升了其他廠商推出新品的時間,也緩解了友商遭遇芯片荒的情況。
再以目前市場最關(guān)注的輔助駕駛的安全場景為例,傳統(tǒng)AEB的自動緊急制動有很長的調(diào)度延時。
而理想星環(huán)OS實現(xiàn)了全域的系統(tǒng)架構(gòu)設(shè)計,能夠優(yōu)化調(diào)度,相比傳統(tǒng)的AUTOSAR響應時間,速度快了1倍,穩(wěn)定性提高了5倍。
體現(xiàn)在具體的功能上,在高速路上120的時速進行AEB的制動,大概可以縮短7米的制動距離。
這要放在別的車企,可能就是一個宣傳賣點。
但理想?yún)s選擇打破傳統(tǒng)技術(shù)黑箱,開放格局,加速推動行業(yè)擺脫對傳統(tǒng)閉源系統(tǒng)的依賴,實現(xiàn)生態(tài)共榮。
當其他車企在輔助駕駛的“已知大陸"深耕時,理想汽車開啟了一個新的時代:
在"無人區(qū)"建立新的創(chuàng)新矩陣,并重新定義了輔助駕駛的進化路徑,這或許就是中國科技企業(yè)突破“創(chuàng)新達爾文陷阱”的一種可能——在無人區(qū)播下技術(shù)種子,用開放協(xié)作催熟果實,最終讓整個產(chǎn)業(yè)向新維度漂移。
更多精彩內(nèi)容,關(guān)注云掌財經(jīng)公眾號(ID:yzcjapp)
- 熱股榜
-
代碼/名稱 現(xiàn)價 漲跌幅 加載中...