1. 首頁
  2. 大牛說
  3. Transformer火了,特斯拉和毫末智行為何同時押注?

Transformer火了,特斯拉和毫末智行為何同時押注?

Vision Transformer 的典型網(wǎng)絡(luò)結(jié)構(gòu)

Transformer 模型在近兩年橫掃 NLP 領(lǐng)域,并隨著技術(shù)發(fā)展開始征戰(zhàn)圖像視覺。在中美兩地,最近有兩家自動駕駛頭部公司分別同時宣布將 Transformer 引入到自動駕駛系統(tǒng)中,來實現(xiàn)系統(tǒng)感知智能與認知智能的大幅優(yōu)化。

其中一家是特斯拉。6 月 20 日,在計算機視覺領(lǐng)域的頂級峰會 CVPR 2021 上,特斯拉 AI 高級總監(jiān) Andrej Karpathy 首次對外闡釋了特斯拉全新自研的超級計算機 Dojo,Dojo 幾乎一出道就成功卡位了全球第五大(算力規(guī)模)的超級計算機。

而 Dojo 出道身后,Karpathy 還在軟件算法領(lǐng)域釋放了一個重要的信息:引入 Transformer 進行大規(guī)模的無監(jiān)督學(xué)習(xí)。

無獨有偶,中國自動駕駛公司毫末智行也在同一個月內(nèi)公布正利用 Transformer 進行超大規(guī)模的感知訓(xùn)練,并且后期有可能將 Transformer 引入到規(guī)劃和控制中。毫末智行是國內(nèi)少有的「車企 + 技術(shù)公司」的自動駕駛研發(fā)樣板,也有人稱它是中國的 Cruise。

毫末智行 CEO 顧維灝近期講到,「據(jù) 6 月最新公開論文數(shù)據(jù)顯示,Vision Transformer 的參數(shù)量已經(jīng)達到 20 億之多,經(jīng)過在 30 億規(guī)模數(shù)據(jù)集上的訓(xùn)練,其性能達到了業(yè)界最高水準(zhǔn)。Vision Transformer 是最適合超大數(shù)據(jù)集的技術(shù),也是非常適合毫末智行的技術(shù)。在自動駕駛領(lǐng)域,特斯拉有這么多數(shù)據(jù),未來毫末智行也會有。這是毫末智行突破重圍的關(guān)鍵,也是未來堅實的技術(shù)壁壘?!?/p>

Transformer 最早是由 Google 提出用于機器翻譯的神經(jīng)網(wǎng)絡(luò)模型。因為其通過一維卷積+注意力機制的設(shè)計,拋棄了 NLP 中常用的 RNN 或者 CNN,取得了非常不錯的效果。并且 Transformer 因為出色的算法并行性,十分適合 GPU 的運算環(huán)境,因此這一技術(shù)快速流行起來。

隨著 2020 年 Vision Transformer ( ViT )橫空出世, 目前其已經(jīng)成功涉足分類、檢測和分割三大圖像問題,并迅速刷遍了業(yè)界的各大榜單。

當(dāng)下中美兩大自動駕駛玩家,忽然在同一時間為同一種技術(shù)趨勢站臺,也充分表明了 Transformer 非凡的潛力。

Transformer 來襲,CNN 的地位尷尬!

自 2012 年以來,CNN 已成為視覺任務(wù)的首選模型。

CNN 通過卷積層,構(gòu)造了一個強大的廣義過濾器,不斷對圖像中的元素篩選壓縮形成通用結(jié)果。對于常規(guī)分類任務(wù)的效果很強大,但它通常過于依賴某個局部信息,從而導(dǎo)致一定程度的不可靠性。

然而,Transformer 拋棄了傳統(tǒng)的 CNN 和 RNN 建模路線,整個網(wǎng)絡(luò)結(jié)構(gòu)完全是由 Attention 機制組成,核心就是多頭注意力機制(Multi-Head Self-Attention)。

這種多頭注意力機制能夠抽象地理解整個圖像不同區(qū)域語義元素之間的關(guān)系。

這就像被打亂的拼圖游戲,Transformer 通過圖片像素之間關(guān)系,依然能夠記住它們的組合順序。

這種機制,讓 Transformer 在兩種場景下,具備比 CNN 更明顯的優(yōu)勢:

(1)大規(guī)模數(shù)據(jù)訓(xùn)練

隨著訓(xùn)練數(shù)據(jù)量的增長,CNN 性能所帶來的收益會逐漸呈現(xiàn)過飽和趨勢。而 Transformer 的飽和區(qū)間很大。

有研究發(fā)現(xiàn),當(dāng)預(yù)訓(xùn)練數(shù)據(jù)集增大到 1 億張圖像時,訓(xùn)練后的性能 Transformer 開始優(yōu)于 CNN,而數(shù)據(jù)增大到 10 億張,兩者的性能差距變得更大了,這就意味著 Transformer 在利用大數(shù)據(jù)的優(yōu)勢上面,是要明顯優(yōu)于 CNN。

而自動駕駛是典型的需要海量數(shù)據(jù)進行超大規(guī)模訓(xùn)練的系統(tǒng)。搭載自動駕駛系統(tǒng)的車輛上路之后,幾乎可以獲得無限量的數(shù)據(jù)。

目前,特斯拉有數(shù)百萬輛搭載 Autopilot 的車輛在路上行駛,而毫末智行通過與長城的合作也可以獲取到大量的真實路測數(shù)據(jù)。

因此,自動駕駛這樣的應(yīng)用場景,恰恰是完全釋放了 Transformer 的實力。

(2)高魯棒性、強泛化能力

Transformer 對于圖像中的擾動以及遮擋等情況下,具備很強的魯棒性和泛化性。

在自動駕駛感知識別中,經(jīng)常會因雨雪天氣、視覺遮擋以及重疊等原因,CNN 模型會出現(xiàn)錯誤的判斷,Transformer 針對這類問題的處理則具有更好的性能。

1、基于 Transformer 的特斯拉神經(jīng)網(wǎng)絡(luò)架構(gòu)

在今年 CVPR 的 workshop 上,Andrej Karpathy 兩次提到了 Transformer:

特斯拉從安裝在汽車周圍的八個攝像頭的視頻中用傳統(tǒng)的 ResNet 提取圖像特征,并使用 Transformer 算法將它們?nèi)诤显谝黄稹?/p>

Transformer 所具有的對像素位置關(guān)系的理解,順理成章地被應(yīng)用在圖像的拼接上,形成全面的場景認知。

同時,特斯拉應(yīng)用 Transformer、CNN、3D 卷積中的一種或者多種組合,去做跨時間的融合,基于 2D 圖像形成具有景深的 3D 信息輸出。

Transformer 可以很好地在空間-時序維度上進行建模。

Transformer 需要依托于大規(guī)模的數(shù)據(jù)集,同時大規(guī)模訓(xùn)練自然也需要巨大的算力。特斯拉為此專門構(gòu)建了超級計算機 Dojo。

2、數(shù)據(jù)量的質(zhì)變+算力的質(zhì)變+Transformer ≈ 感知的一次飛躍

Transformer 不僅能處理各類視覺檢測任務(wù)(車輛檢測、VRU 檢測、車道線檢測、交通標(biāo)志檢測、紅綠燈檢測等),各類分割任務(wù)(可行駛區(qū)域檢測、全景分析等),3D 點云的檢測任務(wù)和分割(障礙物的檢測等),還有潛力提升后續(xù)的規(guī)劃和控制的相關(guān)技術(shù)。

更重要的是,Transformer 可以有效利用海量數(shù)據(jù)進行無監(jiān)督的預(yù)訓(xùn)練。無監(jiān)督學(xué)習(xí),對算法提升至關(guān)重要。畢竟在海量的數(shù)據(jù)規(guī)模之下,數(shù)據(jù)標(biāo)注等預(yù)處理的成本是非常高昂的。

特斯拉目前擁有 200 萬輛級的量產(chǎn)車車隊。毫末智行的前身是長城汽車的智能駕駛前瞻分部。脫胎于車企,毫末智行天生離量產(chǎn)更近。

從近期公開數(shù)據(jù)看,毫末智行 HWA 高速駕駛輔助系統(tǒng)已經(jīng)批量裝配長城汽車摩卡車型 5000 輛,預(yù)計 3 年內(nèi)搭載 100 萬輛長城汽車。

百萬級的自動駕駛車輛,意味著每年數(shù)百億級別的里程,一旦 Transformer 在如此大規(guī)模的數(shù)據(jù)中進行應(yīng)用,對自動駕駛算法帶來的突破可能會是顛覆性的。

新模型的使用甚至有可能推翻此前一些企業(yè)投入較早的「先發(fā)優(yōu)勢」,改變自動駕駛行業(yè)的秩序。

與特斯拉純視覺方案不同的是,毫末智行包含激光雷達、毫米波雷達以及攝像頭等異源傳感器融合方案,目前該公司正在研究 Transformer 用于多種傳感器信號輸入的感知處理能力。

毫末智行相關(guān)負責(zé)人表示,「從視覺到雷達,甚至到下一輪的預(yù)測和規(guī)劃,都可以用 Transformer 這個結(jié)構(gòu),Transformer 對于不同模態(tài)的數(shù)據(jù)具備優(yōu)秀的適應(yīng)能力,Transformer 之前做 NLP 的,現(xiàn)在都可以做視覺,它前端對于數(shù)據(jù)信號輸入的模式,可以適應(yīng)很多模式?!?/p>

「終極狀態(tài)就是 Transformer 可以直接做到多模塊的融合,也就是前端把視覺的輸入,雷達的輸入,都可以作為 Transformer 的輸入,作為多模態(tài)的融合的模型,就是相當(dāng)于直接從原信號到輸出結(jié)果,中間是 Transformer,Transformer 在用它們的時候,它們就在早期的網(wǎng)絡(luò)階段就可以開始逐步融合。」

Transformer 技術(shù)的進一步應(yīng)用,不僅為毫末智行在各條自動駕駛產(chǎn)品線上的視覺算法落地帶來成倍的效率提升,還能夠讓各項視覺性能指標(biāo)快速達到業(yè)內(nèi)領(lǐng)先水平。

毫末智行憑借其「中國 Cruise」的發(fā)展模式優(yōu)勢,能夠在短期內(nèi)積累下大量的數(shù)據(jù)資源。

Transformer 的出現(xiàn)和數(shù)據(jù)的積累,讓這家行業(yè)內(nèi)的「后發(fā)企業(yè)」具備了彎道超車的機會。

數(shù)據(jù)量質(zhì)變 + 算力質(zhì)變 + Transformer = 感知智能上質(zhì)的飛躍。

有新技術(shù)開道,中美自動駕駛也正進入全新的一輪較量。

來源:第一電動網(wǎng)

作者:汽車之心

本文地址:http://www.healthsupplement-reviews.com/kol/150972

返回第一電動網(wǎng)首頁 >

收藏
54
  • 分享到:
發(fā)表評論
新聞推薦
大牛作者

汽車之心

微信公號Auto-Bit。汽車之心是一家專注智能汽車與自動駕駛的媒體和知識服務(wù)平臺,定位于推動汽車與科技的融合。我們的團隊由一群熱愛汽車與新技術(shù)的資深媒體人、產(chǎn)品人與自動駕駛行業(yè)從業(yè)者組成。歡迎添加微信號autobitxyz給我們提意見。

  • 975
    文章
  • 50272
    獲贊
閱讀更多文章
熱文榜
日排行
周排行
第一電動網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價信息
已經(jīng)成功提交我們稍后會聯(lián)系您進行報價!

第一電動網(wǎng)
Hello world!
-->