企業(yè)

自動駕駛，世界模型是唯一解？

汽車公社 2024-12-27 11:44

在前一篇文章《開炒VLA，“端到端”過氣了？》里，我們了解到一個新的概念“世界模型”。按照目前行業(yè)的理解，“端到端”的盡頭，就是世界模型。

因為，自動駕駛光有端到端還不夠。端到端的“黑盒子”特性，導致上限提高的同時拉低下限，存在“蹺蹺板效應”。無窮無盡的Corner Case，寫不完的代碼。就像我那篇文章說的，《“端到端”求L4，無異緣木求魚》。

那么，如何解決這些問題？世界模型閃亮登場了。

開始嘍

粗略統(tǒng)計一下，目前已經(jīng)大約有超過10個車企和自動駕駛公司提出了世界模型。這里面，包括特斯拉、英偉達、蔚小理華、地絕元魔，以及一些內(nèi)部在推進此事的企業(yè)。

那么，我們要問，什么是世界模型？它是如何生成的？又是如何運行的？

追溯一下，“World Models”（世界模型）最早出現(xiàn)在機器學習領域。

2018年，機器學習頂會NeurIPS收錄的《Recurrent World Models Facilitate Policy Evolution》論文，以認知科學中人腦Mental Model來類比世界模型，認為mental model參與了人類的認知、推理、決策過程。其中，最核心的能力——反事實推理（Counterfactual reasoning），是一種人類天然具備的能力。

另外，PLAM掌上電腦創(chuàng)始人杰夫·霍金斯的《千腦智能》中，也介紹了人工智能領域中非常重要的“世界模型”概念。

時間到了2024年2月16日，著名的Open AI公司發(fā)布了震驚全世界的“文生視頻”大模型Sora，它可以根據(jù)文本自動生成一段60秒的視頻。這成為世界模型的一個具象體現(xiàn)。

而在人工智能領域，包括李飛飛的World Labs，谷歌DeepMind等企業(yè)都發(fā)布了世界模型。Yann LeCun的Mate FAIR團隊還發(fā)布了導航世界模型，根據(jù)前一秒的導航信息實時生成下一秒的軌跡。

如今，業(yè)內(nèi)的共識是，一旦這個技術成熟，自動駕駛將迎來真正的爆發(fā)。

雖然，國內(nèi)汽車行業(yè)現(xiàn)在還在“卷”從“兩段式”的端到端到“一段式”的端到端，但是，按照博世智能駕控中國區(qū)總裁吳永橋的說法，從兩段式端到端逐步過渡到一段式端到端，最終實現(xiàn)世界模型的應用，這一路線圖正逐漸成為業(yè)內(nèi)共識。這是一條車端到云端的路。

而且，梳理一下自動駕駛技術的發(fā)展路線，就會發(fā)現(xiàn)一個非常有意思的事情。

所謂“功夫在詩外”，這幾年所有對自動駕駛發(fā)展產(chǎn)生推動的技術都不源于自動駕駛，而是人工智能。這里面，從BEV+Transformer，占用網(wǎng)絡OCC，到端到端，世界模型。就像那句話，“自動駕駛本質上是人工智能的一個具身智能體現(xiàn)。”

世界模型仿佛打開了一個全新的窗口和世界，這里面包括探路者特斯拉。

2023年，特斯拉自動駕駛負責人在CVPR上介紹了“通用世界模型”。該模型可以通過過往的視頻片段和行動提示，生成“可能的未來”全新視頻。

Wayve也在2023 年發(fā)布了GAIA-1模型，它可以依靠視頻、文本和動作的輸入生成逼真的視頻，能夠生成分鐘級的視頻以及多種合理的未來場景，幫助自動駕駛模型的訓練和仿真。

2024年GTC大會上，英偉達也展示了世界模型領域的新進展：The Next Wave of AI: Physical AI。

而國內(nèi)車企里面，蔚來比較領先。2023年NIO Day上，蔚來公布其正在自研世界模型。一年后7月27日的科技日上，蔚來智駕負責人任少卿發(fā)布中國首個智能駕駛世界模型NWM，釋放出更多技術細節(jié)。

NWM模型是一個具有全量理解數(shù)據(jù)、長時序推演和決策能力的智能駕駛世界模型。它能夠在100毫秒內(nèi)推演出216種可能發(fā)生的場景，并尋找到最優(yōu)決策。

11月底，商湯絕影舉辦了自己的第一個AI DAY，亮出名為“開悟”的世界模型，可生成仿真數(shù)據(jù)，與量產(chǎn)實車采集的真實數(shù)據(jù)結合，共同重建物理世界。商湯絕影CTO肖楓還直接說：“‘地大華魔’頭部格局，已經(jīng)是過去式了?！?/span>

世界模型有這么厲害？

世界模型怎么做？

小馬智行CTO樓天城給了世界模型極高的評價，“世界模型是最重要的事情，沒有之一。”

那么，自動駕駛領域，世界模型如何發(fā)揮作用？按照地平線的解釋，世界模型的作用有兩個：

一是通過生成式大模型生成帶有預測性質的視頻數(shù)據(jù)，實現(xiàn)Corner Case多樣化訓練；

二是采用強化學習的方法認識復雜駕駛環(huán)境，從視頻輸出駕駛決策。

而構建世界模型的辦法也有兩個：一個是憑空想象，“無中生有”；另一個，是根據(jù)現(xiàn)有信息完善信息，比如輸入文本、圖片、視頻，生成更多更豐富的視頻。

作為自動駕駛的“大殺招”，世界模型解決了兩大難題，一個是3D重建的高成本、低效率，另一個就是仿真無法“還原”真實數(shù)據(jù)的問題。可以說，世界模型包含了仿真的部分內(nèi)容，但是又完全高于仿真。

這也產(chǎn)生了一個疑問，世界模型是應該凌駕于真實數(shù)據(jù)之上，還是僅僅作為真實數(shù)據(jù)的補充？

小馬智行CTO樓天城認為，依靠現(xiàn)有的真實數(shù)據(jù)只能讓智駕系統(tǒng)無限接近人，只有世界模型數(shù)據(jù)才能構建出更復雜的世界，最終讓訓練出來的系統(tǒng)超越人。換句話說，就是“自動駕駛的安全必須高于人類才有意義”。

所以，必須要有高于人類駕駛行為的世界模型數(shù)據(jù)訓練出來的系統(tǒng)，才能優(yōu)于人類。按照這個表述，世界模型應該凌駕于真實數(shù)據(jù)之上。

不過，這樣一來，世界模型好壞的評估就很難有個量化的準確辦法。只能大致看世界模型的幾項能力：準確性，多樣性，可控性和泛化能力。

目前的現(xiàn)狀，是沒有標準解，八仙過海、各顯神通。

比如，地平線提出了世界模型的兩個長遠價值：一是更準確的世界理解，幫助減少智駕系統(tǒng)的代碼量、延遲、網(wǎng)絡負載、錯誤率等。二是泛化能力，世界模型可以形成對復雜駕駛環(huán)境的通用理解，而非對輸入的重復依賴。

按照地平線的實踐，其提出的“交互式博弈”，核心在于通過生成數(shù)據(jù)驅動實現(xiàn)模擬學習和強化學習。為了避免機器對數(shù)據(jù)的重復模仿，它必須要學會主動理解數(shù)據(jù)。這時候世界模型就承擔了“系統(tǒng)教練”的角色，指導系統(tǒng)到底該怎么開。

而商湯絕影的“開悟”世界模型，基于商湯20 EFLOPS的云端算力，可以做到“（視頻生成）時間最長為150秒、分辨率可達1080P、視角可以實現(xiàn)11V”。也即是，通過“實車道路采集+世界模型生成”雙輪驅動，實現(xiàn)Corner Case數(shù)據(jù)生成。

商湯絕影認為這個難度很大，行業(yè)普遍都是生成1V或6V視角的視頻，開悟直接干到11V，而且同時生成的視角畫面越多，要保持時空一致性就更難，還要克服魚眼視角的畸變。

至于特斯拉和元戎啟行的思路，則是用一套系統(tǒng)覆蓋兩種商業(yè)模型，輔助駕駛和Robotaxi。然后用數(shù)據(jù)訓練的方式不斷提升系統(tǒng)的能力上限，這種邏輯下世界模型更像是現(xiàn)實世界數(shù)據(jù)的補充。

按照圓周智行的說法，目前的一個行業(yè)共識，是自動駕駛實現(xiàn)的一個大前提不僅僅是像人，而是要超越人。因之，真實世界的數(shù)據(jù)只能是無限接近人，而要超越人，世界模型是目前通往自動駕駛的唯一解。

那么，用“造數(shù)據(jù)”的方式來創(chuàng)建一個“美麗新世界”，這個“唯一解”你同意嗎？

來源：第一電動網(wǎng)

作者：汽車公社

本文地址：http://healthsupplement-reviews.com/news/qiye/258585

返回第一電動網(wǎng)首頁 >

以上內(nèi)容轉載自汽車公社，目的在于傳播更多信息，如有侵僅請聯(lián)系admin#d1ev.com(#替換成@)刪除，轉載內(nèi)容并不代表第一電動網(wǎng)（healthsupplement-reviews.com）立場。

文中圖片源自互聯(lián)網(wǎng)，如有侵權請聯(lián)系admin#d1ev.com（#替換成@）刪除。

贊63

分享到：

發(fā)表評論

新聞推薦

選擇車型
上牌城市	購車城市
姓名
手機號
驗證碼
	xxx

自動駕駛，世界模型是唯一解？

自動駕駛，世界模型是唯一解？