1. 首頁
  2. 大牛說
  3. DeepSeek將如何影響智駕?

DeepSeek將如何影響智駕?

去年12月,DeepSeek上線并開源了DeepSeek V3/ R1/Janus Pro,隨后多個云平臺宣布上線DeepSeek大模型。從2月份開始,多家汽車相關(guān)企業(yè)開始宣布接入DeepSeek,用于賦能不同領(lǐng)域的用戶體驗,但更多的集中表現(xiàn)在云端模型、座艙交互AI以及渠道服務(wù)方面。

北汽極狐在座艙領(lǐng)域接入DeepSeek,優(yōu)化問答。不過北汽還接入了豆包、MiniMax等多個大模型。

筆者也在撰稿時讓DeepSeek和ChatGPT同時整理DeepSeek與整車企業(yè)的合作狀態(tài)(輸入問題為:deepseek和哪些汽車企業(yè)建立了合作,合作內(nèi)容是什么,整合到一張表格里邊)。

顯示結(jié)果如下。在一次問答中,兩者均給出了10家合作動態(tài)。而真實情況遠(yuǎn)不止如此,在不進(jìn)行連續(xù)補(bǔ)充提問的情況,兩者均出現(xiàn)一些遺漏,但在整理資料方面,DeepSeek的表現(xiàn)基本與ChatGPT相當(dāng),并且中文支持更好。

左側(cè)圖為DeepSeek,右側(cè)圖為ChatGPT

01.

DeepSeek和其背后的技術(shù)

相比于Open AI這些成名已久的大模型,除性能外,DeepSeek的另一優(yōu)勢在于其較低的訓(xùn)練成本。其V3的訓(xùn)練成本僅用了557.6萬的訓(xùn)練成本。當(dāng)然V3的成本并不能一定說明其總成本的優(yōu)勢,事實上對于其成本具體數(shù)值說法不一,但對其成本的討論熱度就可看出其成本方面確實存在一定優(yōu)勢。

除訓(xùn)練成本外,最為關(guān)鍵的是DeepSeek推理成本的降低。 并且和標(biāo)準(zhǔn)的Transformer架構(gòu)相比,并沒有引入特殊的算子,這也就意味著可以快速部署在各類芯片上(當(dāng)然這也是美國芯片禁令的無奈之舉),這也是為什么稱幻方是“手?jǐn)]算子的天才”的原因。

來源:天津大學(xué)自然語言處理實驗室

推理成本降低加上輕松部署,加上沒有中文互聯(lián)網(wǎng)的限制,使得AI在一夜間快速普及。各智能終端產(chǎn)品也在一夜間擁抱AI。

而DeepSeek能夠快速崛起的原因,根本還是來自于其技術(shù)的選擇。在天津大學(xué)自然語言處理實驗室發(fā)布的報告中提到,DeepSeek在模型架構(gòu)上選擇稀疏MoE模型而非稠密模型,在推理模型訓(xùn)練中有效解決R1-Zero問題,采用蒙特卡洛估算取代Value模型,將推理與對齊合為一體。在小模型應(yīng)用中,將大模型的推理能力直接蒸餾到小模型,比小模型直接訓(xùn)練更具規(guī)?;瘍?yōu)勢,也就意味著成本可以更低。

受此帶動,混合專家(MoE:Mixture-of-Experts)架構(gòu)再次成為行業(yè)的焦點。MoE架構(gòu)即將數(shù)據(jù)分割為多個Token,然后通過門控網(wǎng)絡(luò)技術(shù)(Gating Network)把每組數(shù)據(jù)分配到特定的專家模型。這些專家模型專注于處理不同的任務(wù)。MoE架構(gòu)的好處在于提供模型靈活性和效率的同時,也會顯著降低計算成本。這也是DeepSeek訓(xùn)練成本低于ChatGPT的核心原因。

DeepSeek MoE示意圖

由無數(shù)個專家模型組成的大模型被稱之為教師模型(參數(shù)量大、性能強(qiáng)大),基于此模型可以針對性蒸餾出不同專業(yè)子模型,子模型也被稱之為學(xué)生模型(輕量級)。

因此不僅是DeepSeek本身,MoE架構(gòu)和蒸餾技術(shù)對未來座艙和智駕技術(shù)都將產(chǎn)生深遠(yuǎn)的影響。

02.

認(rèn)識一下MoE

MoE理論提出時間很早,在1991年Geoffrey Hinton和Michael I. Jordan就發(fā)表了論文《Adaptive Mixtures of Local Experts》,這也是如今MoE模型引用最早的論文,這也意味著在傳統(tǒng)機(jī)器學(xué)習(xí)時代,MoE的理念就開始應(yīng)用。

進(jìn)入深度學(xué)習(xí)時代后,MoE開始在神經(jīng)網(wǎng)絡(luò)中應(yīng)用。2013年12月《Learning Factored Representations in a Deep Mixture of Experts》論文將MoE融合進(jìn)去了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,并設(shè)計出橫向拓展神經(jīng)網(wǎng)絡(luò)的方法,使其可以隨著網(wǎng)絡(luò)深度的增加實現(xiàn)指數(shù)級上升。

真正將MoE應(yīng)用在大參數(shù)模型是Google Brain團(tuán)隊在2017年發(fā)布的論文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》,訓(xùn)練出了137B參數(shù)的模型。

最大的改進(jìn)在于可以根據(jù)輸入的內(nèi)容,決定采用哪一部分模型進(jìn)行計算,提升模型計算的效率。這樣有利于模型規(guī)模增加后,成本不會出現(xiàn)指數(shù)級增加。該案例中最大使用了13萬個專家模型。當(dāng)然,后續(xù)在應(yīng)用MoE架構(gòu)時還會面臨工程化難題,即如何協(xié)同算力。

進(jìn)入Transformer時代后,MoE繼續(xù)得到應(yīng)用。2020年6月,Google發(fā)布《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》,把FFN層替換成MoE層。2021年1月,Google緊接著發(fā)布了《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》,進(jìn)一步提升了模型的參數(shù)量,達(dá)到1.6T。最大的改變是只為每個Token分配一個專家模型而非此前的多個,使得門控網(wǎng)絡(luò)(Gating Network)可以用BP直接訓(xùn)練。

并提出了容量因子(Capacity Factor)的概念。原理上來看,模型計算時希望最大限度讓每個專家模型拿到均分的Token,以最大限度發(fā)揮機(jī)器算力。但實際情況Tokens是沒有辦法被均分的。因此就需要為每個專家模型分配一個緩沖區(qū)(buffer),buffer的大小等于平均分配到每個專家模型的Token乘以Capacity Factor。如果buffer溢出,直接將Token丟棄,相當(dāng)于跳過該FFN層的計算。

對應(yīng)的,通過容量因子,可以實現(xiàn)計算速度和訓(xùn)練質(zhì)量的trade-off。即加大容量因子會保證每個Token得到計算,但計算會變慢。減少容量因子可以加速訓(xùn)練,但會導(dǎo)致更多的Token被丟棄。

Switch Transformer主要的成就在于在工程上驗證了MoE在大型Transformer模型上的效果,不再僅僅停留在理論層面。 在計算量不變的調(diào)節(jié)下加速模型訓(xùn)練,提升模型效果。對MoE的應(yīng)用有著巨大的推進(jìn)作用,對后續(xù)的scaling law、蒸餾做了很多詳細(xì)的探索,奠定了技術(shù)的方向和基礎(chǔ)。

2022年Google再次發(fā)布了ST-MoE模型,《ST-MoE: Designing Stable and Transferable Sparse Expert Models》,進(jìn)一步推進(jìn)MoE模型的發(fā)展。ST-MoE主要解決兩個問題,一是訓(xùn)練過程中的不穩(wěn)定。二是特定任務(wù)的小數(shù)據(jù)集微調(diào)預(yù)訓(xùn)練任務(wù)(fine-tune)上表現(xiàn)不佳,與通用大數(shù)據(jù)集訓(xùn)練(pre-train)差異明顯。為了解決這些問題,ST-MoE提出了新的loss,即router z-loss,提出模型的穩(wěn)定性。ST-MoE模型也提出一些手段解決Fine-tune效果不佳的問題,主要解決過擬合難題。提出了兩個方向,一是只更新模型部分參數(shù),二是使用于Fine-tune Dense模型不一樣的超參數(shù)。

ST-MoE模型在工程化繼續(xù)向前推進(jìn) ,但考慮到其時間段,模型依然是Encoder-Decoder架構(gòu)。如今,架構(gòu)更多是Decoder-only架構(gòu),即純自回歸任務(wù)訓(xùn)練。

2021年12月,AI行業(yè)進(jìn)入GPT時代,Google也發(fā)布了GLaM,《GLaM: Efficient Scaling of Language Models with Mixture-of-Experts》,訓(xùn)練出了最大為1.2T參數(shù)量的Decoder-only模型,MoE模型正式在Decoder-only架構(gòu)中使用。

可以看出經(jīng)過多年的發(fā)展,MoE模型在理論和工程化方面都得到了提升和完善,在模型效果、訓(xùn)練速度和算力成本方面都表現(xiàn)出較大的優(yōu)勢。但Fine-tune效果不佳的問題也一直在存在,需要行業(yè)繼續(xù)去解決。Google在MoE領(lǐng)域是絕對的先驅(qū)者、拓荒者。

(本章節(jié)內(nèi)容參考自知乎,作者:Verlocksss)

隨著技術(shù)的發(fā)展,2023年開始開源的MoE模型開始向業(yè)內(nèi)開放。

2023年12月,法國公司Mistral AI發(fā)布了全球首個開源MoE模型,Mixtral 8*7B,采用decode-only架構(gòu)。2024年1月,幻方量化發(fā)布《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》,也是國內(nèi)第一個開源的MoE模型。

隨著開源生態(tài)的建立,MoE高性價比的特性凸顯,2024年之后,MoE迎來大發(fā)展,僅上半年全球發(fā)布的MoE模型就超過20多個,過往三年總量才10個左右。MoE的使用傾向也不盡相同,有些企業(yè)采用MoE提升大模型性能,有些企業(yè)則利用MoE低成本的優(yōu)勢加速其AI產(chǎn)品的應(yīng)用。

DeepSeek的成功,把MoE在一次推到了前所未有的高度,證明了其工程化的可行性。這是因為在以往,包括MLB、FP8訓(xùn)練、MoE all-to-all通信、MTP等技術(shù)雖然早已提出,但從未在如此大的模型中得到協(xié)同創(chuàng)新,更未有開源的模型出現(xiàn)。

03.

DeepSeek及技術(shù)在智駕領(lǐng)域應(yīng)用

從2024年開始,在AI技術(shù)的推動下,智能汽車進(jìn)入AI定義汽車元年。各類AI技術(shù)或應(yīng)用將在汽車中得到嘗試。

拋開營銷服務(wù)領(lǐng)域,汽車中DeepSeek落地最快的云端模型,車端領(lǐng)域是座艙和智駕。云端本身就已探索各類大模型的應(yīng)用,座艙則直接可以通過聯(lián)網(wǎng)接入云端,甚至在座艙直接部署一個端側(cè)小模型提升用戶語音問答體驗(如果算力、內(nèi)存、帶寬允許)。

其實早在DeepSeek大火之前,開源MoE模型便已出現(xiàn),MoE模型在車載領(lǐng)域應(yīng)用的時間段要早于DeepSeek。

2024年10月,小鵬在AI技術(shù)分享會上便提到了其端到端架構(gòu)即車端大模型是基于其云端大模型蒸餾所得,據(jù)了解云端模型架構(gòu)即采用的是MoE。理想汽車CEO宣布轉(zhuǎn)型進(jìn)入AI領(lǐng)域后,據(jù)透露其Mind GPT模型也將采用MoE模型和Transformer結(jié)合。并且理想汽車還與上海期智研究院、復(fù)旦大學(xué)推出STR2。STR2面向自動駕駛領(lǐng)域規(guī)劃控制領(lǐng)域,通過結(jié)合Vision Transformer編碼器和MoE架構(gòu),實現(xiàn)對復(fù)雜交通環(huán)境的深度學(xué)習(xí)和有效規(guī)劃。

DeepSeek的出現(xiàn)加快了MoE的進(jìn)程,配合蒸餾技術(shù),為智駕技術(shù)打開了想象空間。

據(jù)了解,DeepSeek對智駕的影響主要有兩個方向。一是加速云端智駕模型性能提升(訓(xùn)練教師模型,已經(jīng)在推進(jìn)中),二是車端模型優(yōu)化(部署學(xué)生模型,探索過程中)。

在云端,主要的做法是基于當(dāng)前智駕企業(yè)積累的數(shù)據(jù)庫,選用DeepSeek的開源模型做數(shù)據(jù)生成來完善場景構(gòu)建。主要的應(yīng)用方向有三個,分別是場景理解、感知融合和軌跡規(guī)劃。

采用DeepSeek后,一方面利用其模型性能可以節(jié)省標(biāo)注成本。有業(yè)內(nèi)人士指出,可以節(jié)省約90%的標(biāo)注成本,還可以生成海量的增強(qiáng)數(shù)據(jù)。比如經(jīng)驗豐富的司機(jī)駕駛風(fēng)格數(shù)據(jù),通過與模型生產(chǎn)的軌跡進(jìn)行對比,可以評估軌跡生成結(jié)果。并且還有利于提升極端路況的表現(xiàn),這點在城市NOA中尤其適用。

在功能應(yīng)用上,相比于感知融合,軌跡規(guī)劃方面的進(jìn)展預(yù)計會更快。這是因為視覺部分涉及到位置坐標(biāo)表示,對精度要求更高。DeepSeek作為語言模型對此描述比較模糊,存在FP8精度相對較差的問題。比如車道線的對比,雖然效率有著顯著提升,但誤差增加,短期內(nèi)無法滿足要求。但可以通過其語言部分與視覺結(jié)果做對比,以更好的實現(xiàn)軌跡預(yù)測。

當(dāng)前由于時間進(jìn)度原因,云端模型還在接入部署階段。最大的挑戰(zhàn)在于教師模型的完善,借助包括DeepSeek等多個大模型技術(shù)來優(yōu)化性能,在這個過程中一些特殊場景的數(shù)據(jù)需要同步挖掘。預(yù)計在今年下半年會有相關(guān)企業(yè)公布進(jìn)展。

在車端方面,主要的做法是借助DeepSeek所展示出的技術(shù)從教師模型中蒸餾得到學(xué)生模型,無需單獨對其進(jìn)行訓(xùn)練(理想情況)。

在這個過程中需要評估芯片算子的框架,當(dāng)前進(jìn)展較快的主要是英偉達(dá)和華為的芯片,地平線芯片還在適配中。然后便是算法移植,將學(xué)生模型部署在車端芯片中。

從進(jìn)度來看,車端模型的適配和部署還在推進(jìn)中,一方面要適配不同的芯片,另外還需評估模型部署完成后,車端模型實際的表現(xiàn)。在這個過程中,也可以直接借用DeepSeek的一些小模型,比如目標(biāo)識別、語義分割等作為現(xiàn)有模型的補(bǔ)充。

04.

對未來智駕行業(yè)的影響

首先是降低云端訓(xùn)練成本,即降低算力租賃的費用,實現(xiàn)系統(tǒng)降本。

基于教師模型可以蒸餾得到多種學(xué)生模型,不同版本智駕方案無需重復(fù)開發(fā),開發(fā)效率也會提升。尤其是會減少第三方智駕企業(yè)的資金壓力和項目周期壓力。

一旦教師模型趨于成熟穩(wěn)定,中階智駕和高階智駕技術(shù)邊界會越來越模糊,理想情況下可以來源于同一教師模型。屆時,只需要按照功能定義對應(yīng)的蒸餾出相應(yīng)模型即可。該方向比較依賴教師模型的成熟度,DeepSeek本身無法作為智駕教師模型使用(上文提到的精度問題),因此共用教師模型尚需一定時日。

其次是車端算力要求的降低。本身DeepSeek的一些小模型便可以直接應(yīng)用于智駕,比如上文提到的語義分割,目標(biāo)識別等,以優(yōu)化現(xiàn)有模型。長遠(yuǎn)來看,基于教師模型蒸餾得到的學(xué)生模型也會更加精細(xì)化,并且DeepSeek所展示的推理效率也有一定的借鑒意義。這也就意味車端所需的芯片算力要求會有所降低,行業(yè)希望其可以節(jié)省30%的算力。對應(yīng)的,現(xiàn)有算力平臺能夠?qū)崿F(xiàn)的功能也會增加。個別企業(yè)表示,基于DeepSeek的技術(shù)路徑甚至可以在單Orin-X上部署L3的功能。

此外,對艙駕一體的應(yīng)用也有幫助。這取決于教師模型的功能定義,需要將智駕和座艙放在同一模型上進(jìn)行迭代升級。但目前未看到有明確的技術(shù)動向。

End.

DeepSeek的大火證實了AI技術(shù)在成本可控的情況下,的確存在廣闊的市場需求。促使業(yè)內(nèi)加速探索AI的應(yīng)用場景需求,加強(qiáng)了AI產(chǎn)業(yè)的信心。

對于汽車而言,一方面DeepSeek的低成本優(yōu)勢帶來了降本的方向和可能,尤其加速AI在云端和車端座艙里邊的應(yīng)用。更重要的,DeepSeek背后的技術(shù)理念和工程化實現(xiàn)方式會對現(xiàn)有技術(shù)架構(gòu)體系帶來啟發(fā),提供新的思路和方向,這點對智駕尤其有用。

來源:第一電動網(wǎng)

作者:NE時代

本文地址:http://www.healthsupplement-reviews.com/kol/262989

返回第一電動網(wǎng)首頁 >

收藏
65
  • 分享到:
發(fā)表評論
新聞推薦
大牛作者

NE時代

為新能源時代而生的汽車產(chǎn)業(yè)服務(wù)平臺,致力于為新能源汽車企業(yè)發(fā)展提供一站式服務(wù) 旗下微信公眾號:NE時代新能源、智車引擎

  • 694
    文章
  • 30171
    獲贊
閱讀更多文章
熱文榜
日排行
周排行
第一電動網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價信息
已經(jīng)成功提交我們稍后會聯(lián)系您進(jìn)行報價!

第一電動網(wǎng)
Hello world!
-->