99re6这里有精品热视频,久久综合九色欧美综合狠狠,国产精品久久久久久无毒不卡,av免费无插件在线观看,欧美放荡办公室videos

  1. 創(chuàng)業(yè)頭條
  2. 前沿領域
  3. 人工智能
  4. 正文

大模型攻入自動駕駛

 2023-10-20 09:30  來源:A5用戶投稿  我來投稿 撤稿糾錯

  阿里云優(yōu)惠券 先領券再下單

©自象限原創(chuàng)

作者|羅輯

編輯|程心

“自動駕駛的前提是安全與嚴謹,大模型給出'差不多'的結果是不行的。”

在今年4月初,大模型剛剛問世時,一位自動駕駛領域的資深投資人向「自象限」表達了,他對通用大模型應用在自動駕駛領域的擔憂。

不被看好的原因有很多,比如大模型“胡說八道”的問題,導致大家認為它達不到自動駕駛的安全等級要求;比如大家認為大模型解決的是共性推演的問題,但自動駕駛解決的0.5%的corner case;再比如大模型要在車端落地,需要與結合前融合算法,對前端算力的要求會很高。

總而言之,通用大模型的不確定性和自動駕駛的嚴謹性像一個硬幣的兩面,落地上也面臨著幾座短期內難以翻越的大山。“這會是整個體系建設的問題,不是角度算法可以改變的。”這位投資人如此總結道。

盡管不被看好,但6個月過后,大模型還是以一種蠻橫的方式?jīng)_進了自動駕駛行業(yè)。

打響第一槍的,仍然是特斯拉。今年8月,特斯拉端到端AI自動駕駛系統(tǒng)FSD Beta V12首次公開亮相,完全依靠車載攝像頭和神經(jīng)網(wǎng)絡來識別道路和交通情況,并做出相應的決策。國內,自動駕駛和大模型公司都開始緊鑼密鼓的布局,9月,華為盤古大模型3.0推出了自動駕駛行業(yè)大模型;10月,在毫末第九屆AI Day中,也講解了其身處自動駕駛領域對大模型的一系列探索。

從結果來看,目前大模型對自動駕駛的改變分為兩個方向:一是大模型作為工具,輔助自動駕駛算法的訓練,優(yōu)化過程;二是大模型作為決策模型,直接駕駛車輛,改變結果。

透過國內外的探索,這條看似相悖的技術路徑似乎開始一步步清晰,那么大模型究竟能給自動駕駛帶來了什么?核心的技術難題又該如何解決?

大模型,更換自動駕駛訓練引擎

首先,大模型正在重塑自動駕駛的訓練過程。

從大模型被討論的第一天開始,從文本到圖片生成,大家就深刻意識到大模型在提高工作效率上的巨大潛力。這一點,在自動駕駛訓練上也不例外。

訓練自動駕駛算法,是一個漫長而龐大的工程,從數(shù)據(jù)采集、傳輸、管理;到數(shù)據(jù)清洗、標注、準備,到最后投入到訓練自動駕駛算法的熔爐當中,中間會涉及到數(shù)十個環(huán)節(jié)。

而如今困擾自動駕駛發(fā)展的核心問題也來自于此,一個是隨著絕大部分常規(guī)問題被解決,有效數(shù)據(jù)的收集難度越來越大;其次則是隨著數(shù)據(jù)規(guī)模的增加,數(shù)據(jù)處理的成本也越來越高。

▲圖為自動駕駛訓練過程

首先是數(shù)據(jù)收集的問題。當自動駕駛走入最后0.5%的corner case階段,場景數(shù)據(jù)在現(xiàn)實世界就變得可遇不可求。

為了應對這些問題,特斯拉、Waymo、Cruise等企業(yè)都在不同程度使用合成數(shù)據(jù)來模擬真實世界來訓練自動駕駛。

但這種方式也存在一些弊端,比如合成數(shù)據(jù)雖然能輕松生成大量數(shù)據(jù),提高自動駕駛訓練數(shù)據(jù)的多樣性。但作為人工生成的數(shù)據(jù),合成數(shù)據(jù)并不能完全模擬真實世界的復雜和變化。過度使用合成數(shù)據(jù),會導致自動駕駛出現(xiàn)“紙上談兵”的現(xiàn)象,即在訓練時表現(xiàn)很好,但一上路就不行,這種情況被稱為過度擬合。

而針對這樣的問題,大模型提供了一種新的解決方案。

比如使用大模型進行數(shù)據(jù)生成的技術——遷移生成。它可以基于一個真實的場景,快速生成不同時間、不同環(huán)境的情況。比如拍攝一張街道春天的照片,大模型可以快速生成這條街道雨天、刮風、下雪等不同條件、不同季節(jié)的情況。

這么做的好處在于“可控”,自動駕駛訓練可以根據(jù)一些特定的需要生成一些特定的場景,而更重要的是,這些場景中包含一些真實數(shù)據(jù),在增加訓練場景豐富性的同時,又可以避免過度擬合的情況。

目前已經(jīng)有廠商在逐步嘗試,毫末CEO顧維灝在AI Day中便提到了該技術,清華智能產(chǎn)業(yè)研究院(AIR) 提出的自動駕駛模型也有類似的設置,在他們的設定中,模型會提出怎樣獲取不同的數(shù)據(jù),包括真實世界數(shù)據(jù)和仿真數(shù)據(jù)。然后這些數(shù)據(jù)要經(jīng)過受控管道進行清理,再經(jīng)過感知和決策兩大模型,最終為車輛提供決策。

其次是數(shù)據(jù)標注,數(shù)據(jù)標注并不是一次性完成的,同一張照片,不同時期,依據(jù)需要解決問題的不同,需要標注的東西也不太一樣。

比如一開始需要解決的是車輛識別的問題,那么照片中重點標注的是不同的車輛,后來要解決紅綠燈識別的問題,重點標注的可能就是紅綠燈。總之,數(shù)據(jù)標注是一個反復,且逐步細化的過程,因此難度和成本也在持續(xù)增加。

在國外,特斯拉最早啟動數(shù)據(jù)自動標注,這讓原來需要幾個月時間的工作可以在幾周內完成。2022年6月,得益于效率的提升,特斯拉裁掉了其位于加利福尼亞圣馬特奧辦事處的絕大部分數(shù)據(jù)標注員工。

特斯拉之后,國內自動駕駛企業(yè)也開始跟進,將自動標注使用到日常訓練中。作為特斯拉的”中國學徒“,顧維灝介紹了毫末使用大模型進行數(shù)據(jù)標注的案例。

其運用大語言模型和多模態(tài)的能力,通過將圖文和文圖交叉的特征做匹配的,然后再將其放到大語言模型中,針對形成于特征空間的搜索(query)特征。在這樣的基礎上,大模型就可以在不需要做太多準備的情況下,將之前沒有標注過的,想要標注的內容標注出來。

整體上,大模型的接入優(yōu)化了自動駕駛的訓練過程。

如果將訓練自動駕駛算法比作是金字塔的修建,那么大模型的加入,就如同將曾經(jīng)依靠人力堆砌的石塊,改換成現(xiàn)代化的起重機,加快了自動駕駛的“搭建”進程。

大模型,讓自動駕駛“長出腦子”

在自動駕駛訓練中,大模型就像全職助手一樣不斷提高算法訓練的效率。但這也僅僅只是工程上的優(yōu)化,大模型給自動駕駛帶來的,還有更深層次改變。

這個問題要回到自動駕駛是如何進行工作的。

在大模型出現(xiàn)之前,自動駕駛是任務驅動的。即程序員依據(jù)一些特定的場景,編寫一些解決方案的代碼,當車輛在行駛過程中感知到相應的情況,便按照之前設定好方式處理。

在這個基礎上,自動駕駛的發(fā)展就變成:發(fā)現(xiàn)一個問題,收集一些數(shù)據(jù),然后訓練一個小模型來解決這個問題,然后再發(fā)現(xiàn)新的問題,如此循環(huán)。

但這種模式對于問題的解決具有一定的滯后性,即問題要先被發(fā)現(xiàn),然后等一段時間才能被解決。其次是泛化問題,即在同一個問題在夏天解決了并不一定在冬天解決。也正是因為如此,自動駕駛才有解決不完的corner case。

這些問題,實際指向的其實是傳統(tǒng)自動駕駛算法“照本宣科”式的工作模式,并沒有真正認識世界、理解世界,即自動駕駛并沒有靈魂。

大模型的出現(xiàn)則為這個問題的解決給出了方向,就像大模型讓虛擬人、讓語音助手都長出“腦子”一樣,大模型也在讓自動駕駛長出“腦子”。

特斯拉的“端到端”技術又叫作“感知決策一體化”,也就是將“感知”和“決策”融合到一個模型中,直接對車下達指令,控制車輛,這樣輸入傳感器信號后可以直接輸出車控信號,大大降低了級聯(lián)誤差的概率,也因此大大提升了系統(tǒng)性能的上限,整體潛力極大。

▲ 圖源馬斯克Twitter

目前國內還未能做到真正的“端到端”,比如毫末DriveGPT仍然分為感知大模型和認知大模型兩部分。

感知大模型除了要根據(jù)車端輸入的信號做三維重建,還要加上時序特征形成一個四維空間。在此基礎上,毫末引入多模態(tài)大模型,多模態(tài)大模型已經(jīng)做了許多文本和對齊的工作,這個時候再和4D語義空間做對齊,就可以把自動駕駛傳感器看到的這些東西全部語義化,這樣就形成了通用的,識別萬物的能力。

而有了這樣的能力之后,結合認知大模型就可以結合駕駛時的信息和行駛目標,比如直行、變道、左轉等信息,給出相應的駕駛決策和駕駛解釋,然后大模型將其轉化為自動駕駛的語言,通過Drive Prompt和自動駕駛系統(tǒng)做交互。

本質上,大模型就像是自動駕駛的“領航員”和“翻譯官”,它理解駕駛的目標和意圖,它識別和感知環(huán)境,然后做出決策并將其翻譯成自動駕駛的語言,向自動駕駛系統(tǒng)下達合適的指令。

當然,從人的角度來講,駕駛車輛的過程需要的除了識別萬物,還有對環(huán)境中所有物體運動方向的預判,這樣才能在面對復雜交通環(huán)境時提前做出反應。

大模型同樣對自動駕駛帶來了這方面的改進。

2022年,特斯拉在年底的AI Day上就曾提出過一個名叫交互搜索(Interaction Search)的規(guī)劃模型,其主要由樹搜索,神經(jīng)網(wǎng)絡軌跡規(guī)劃和軌跡打分三部分組成,可以有效預測道路交通參與主體的行為軌跡。

從這可以看到,自動駕駛的決策已經(jīng)從之前,依靠單一信息進行分布決策,變成了多種信息匯總之后的統(tǒng)一決策。

▲ 自動駕駛的決策路徑

即大模型的決策越來越像是一個整體。

目前生成未來世界這項技術可以根據(jù)當前的視頻、圖片,生成未來2~5秒的情況,其預測2s后準確率達到85%,這可以讓AI對未來有一些預判。同時,預測未來的技術也可以用在自動駕駛訓練上,比如可以生成未來的圖片,然后基于真實圖片和生成的未來的圖片再進行自監(jiān)督學習,以此來提升整個視覺大模型識別的判斷的能力。

它讓自動駕駛越來越成為一個“整體”,正如清華大學智能產(chǎn)業(yè)研究院院長張亞勤說的那樣,“AI 大模型帶來了從判別式 AI 到生成式 AI 的新技術范式變革,自動駕駛達到最后的安全、可靠階段一定是端到端方式實現(xiàn)。”

自動駕駛的底層進化

成為“整體”,自動駕駛中關于這個的討論其實并不是在大模型熱度起來之后才開始的。

2022年,當關于自動駕駛的討論還聚焦在芯片和電子電氣架構的時候,全球著名的汽車零部件供應商博世曾提出,汽車電子電氣架構將從分布式向域集中式和中央計算過渡。

早期的汽車電子電氣架構是以ECU(Electronic Control Unit 電子控制單元)為主,一輛汽車通常有30到100個ECU不等,分別控制汽車的引擎、變速器、制動等等功能。隨著汽車智能化的進程,相關功能的ECU逐漸被整合成域控制器,目前智能汽車通常有動力域、底盤域、車身域、座艙域和自動駕駛域五個。

在這個基礎上,智能汽車的電氣架構還在向一個“整體”演變,最終將會形成由一個統(tǒng)一中央計算單元控制的形式。2016年,特斯拉發(fā)布的Model 3實現(xiàn)了中央域控制架構的雛形,當時被行業(yè)認為在電子電氣架構方面領先傳統(tǒng)車企6年以上。

從“散裝”到“整體”,這是智能汽車硬件層面的變化,這種變化也推動著自動駕駛軟件層面向一個“整體”發(fā)展,而契機就是大模型。

關于自動駕駛與大模型,張亞勤提到,“自動駕駛不是一個模型,而是多個模型的組合。”這其實正好對應智能汽車硬件域控制器的發(fā)展階段。

這也是華為盤古大模型3.0的思路,華為云EI服務產(chǎn)品部部長尤鵬認為,通過數(shù)智融合架構打破數(shù)據(jù)、AI資源管理邊界,在一個平臺即可完成開發(fā)、測試、交付上線工作,讓業(yè)務創(chuàng)新提效2倍,實現(xiàn)數(shù)據(jù)加速;借助盤古大模型在認知、感知、決策、優(yōu)化等全領域的能力,車企可以快速基于盤古訓練出自己需要的模型,實現(xiàn)算法加速;同時,華為還提供底層昇騰算力平臺,解決自動駕駛對算力的高需求,做到千卡訓練數(shù)月不中斷,打通“全鏈路”,實現(xiàn)算力加速。

“全鏈路的模型化是3.0時代的一個重要的演進思路,最終演變成端到端的大模型。”顧維灝說。

而一旦完成了全鏈路的打通,這樣的改變帶來的將是大范圍且高速迭代。正是因為“端到端”技術,馬斯克曾放出豪言“將可能在今年年底實現(xiàn)完全的自動駕駛”。這句話雖然不排除馬斯克吹牛的成分,但我們也可以從中看出“端到端”技術的巨大潛力。

總的而言,對于自動駕駛來說,大模型并不是一種決策方式,也不單單是指一種技術,而更應該是自動駕駛發(fā)展的一種最終形態(tài)。

當然,雖然大模型給自動駕駛的落地帶來了巨大的想象力,但實際的應用和落地過程仍然面臨許多問題。

比如最直接的問題就是如何將云端大模型的能力應用到車端。

目前行業(yè)普遍應用的方式有三種:

第一種是將大模型蒸餾到小模型,應用到車端。這具體又分為兩種路線,一種是通過大模型給數(shù)據(jù)打標簽,監(jiān)督小模型學習;另一種是將大模型上的Feature map 和小模型上的Feature map進行對齊,然后來完成小模型能力的提升。

從毫末公布的工作效率來看,一個模型的蒸餾需要好幾個月,但能夠幫助自動駕駛車端模型在個別任務上的感知指標提升5%。

第二種是在云端通過大模型構建一種能力,然后再通過減脂、蒸餾等方式將大模型的能力蒸餾到車端的小模型上,來完成車端小模型的進步。

第三種則是直接使用云端大模型。畢竟雖然云端傳輸會面臨信號、安全、延遲等問題的困擾,但也并不意味著所有決策都需要在車端完成。云端大模型具有更強的泛化能力和解釋能力,對于任務實時性和網(wǎng)絡信號較好的地方,也存在可能讓車端的一些通信和云端大模型進行交流,然后讓云端大模型完成車端工作的情況。

除了從將大模型運用到車端之外,大模型指導的自動駕駛還有許多人類生活的常識需要學習。比如路沿的方向是不是能走,面臨多個路口的時候各個方向是不是一定按照車道線走,這些在實際交通實踐中約定俗成的東西大模型還無法掌握。

“現(xiàn)在解決這些問題就需要加許多約束,而一旦加約束,這個系統(tǒng)就變得不聰明了。”顧維灝提出了其中的邏輯悖論。

所以如何去解決這些問題,又如何發(fā)揮大模型的優(yōu)勢成為未來很長時間自動駕駛的考題,畢竟當前大模型對于自動駕駛的改變,也只是第一聲槍響而已。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關標簽
自動駕駛

相關文章

  • 滴滴,能否承載小鵬自動駕駛的野心?

    劇本已經(jīng)寫好,故事還要時間。

  • 如祺出行遞表,港交所迎來首位Robotaxi商業(yè)化觀察對象

    港交所近年來持續(xù)對新經(jīng)濟公司和科技創(chuàng)新類公司釋放善意,接連優(yōu)化上市條款,擺出“筑巢引鳳”姿態(tài)。這也讓外界對新興領域的興趣大大增加。8月18日,出行科技與服務公司如祺出行正式遞表港交所,其業(yè)務模式為Robotaxi和有人駕駛網(wǎng)約車兩條腿走路,背后還有技術服務的輸出,這無疑讓港股又迎來一位差異化選手。因

    標簽:
    自動駕駛
  • 禾賽科技Q2營收交付雙新高,國產(chǎn)激光雷達從量變到質變

    隨著2022年激光雷達元年、2023年城市智能輔助駕駛(NOA)元年相繼到來,激光雷達產(chǎn)業(yè)迎來爆發(fā)期。今年以來,自動駕駛公司、汽車制造商以及移動出行公司等各路人馬積極推動城市級別的智能輔助駕駛全面落地,北京、上海、深圳、廣州等多座城市發(fā)布相關政策。在產(chǎn)業(yè)+政策的推動下,自動駕駛有望實現(xiàn)商業(yè)化破局。作

    標簽:
    自動駕駛
  • 如祺出行沖刺自動駕駛商業(yè)化,人少的地方機會多?

    網(wǎng)約車,正在迎來讓人“不明覺厲”的新一輪競賽。網(wǎng)約車監(jiān)管信息交互系統(tǒng)的數(shù)據(jù)顯示,截至今年6月30日,全國共有318家網(wǎng)約車平臺公司取得網(wǎng)約車平臺經(jīng)營許可,環(huán)比增加5家;網(wǎng)約車監(jiān)管信息交互系統(tǒng)6月份共收到訂單信息7.63億單,環(huán)比上升3.7%。簡單來看,供給和市場規(guī)模已經(jīng)觸達天花板,不復明顯的增長。行

    標簽:
    自動駕駛
  • 歐卡智舶打造“漾”水上超級空間,L4級自動駕駛智能游船賦予智慧文旅新生態(tài)!

    水上文旅三大痛點隨著經(jīng)濟不斷復蘇,旅游行業(yè)正在步入高速回暖階段,面對不斷提高的旅游品質與質量,投資方與經(jīng)營者不再是簡單的準備一塊水域,或是添置一些水上器械裝備就可以。大部分消費者對于水上活動甚至已經(jīng)形成了固化的觀念。痛點一:玩法匱乏我們針對國內眾多5A級景區(qū)的部分游客人群進行了采訪,問到其所了解的水

    標簽:
    自動駕駛
  • Manus官網(wǎng)突現(xiàn)“地區(qū)不可用”提示,中國區(qū)業(yè)務戰(zhàn)略性調整引關注

    四個月前邀請碼炒至10萬元,如今官網(wǎng)變灰、社交賬號清空,這家AI新貴的閃電遷移折射中國科技企業(yè)出海潮涌。7月11日,打開Manus官網(wǎng)的用戶發(fā)現(xiàn)一則突兀提示:“Manus在你所在的地區(qū)不可用”。而就在不久前,這個位置還顯示著“Manus中文版本正在開發(fā)中”的樂觀聲明。同時,Manus官方微博和小紅書

    標簽:
    ai智能
  • 摩爾線程估值超 250 億,「中國英偉達」沖刺科創(chuàng)板

    文/十界來源/節(jié)點財經(jīng)一場圍繞算力自主的競賽,正在科創(chuàng)板上演。近日,國產(chǎn)全功能GPU廠商摩爾線程遞交科創(chuàng)板招股書,擬募資約80億人民幣,成為今年上半年科創(chuàng)板擬募資規(guī)模最大的沖刺者,也打響了“國產(chǎn)英偉達”上市的第一槍。據(jù)招股書顯示,摩爾線程自2020年成立以來,主營全功能GPU芯片的研發(fā)與銷售,以自主

  • 百川智能高管集體跑路!王小川的醫(yī)療AI還能贏嗎?

    “AI大模型六小虎”百川智能危機重重。這是前搜狗CEO王小川創(chuàng)辦的AI公司。昨天就爆出新聞,百川智能的聯(lián)合創(chuàng)始人離職,這是王小川入局AI的第一道大坎。接下的成敗非常關鍵:(1)拿下河北(2)學習科大訊飛百川智能離職高端概覽:(1)2025年7月10日,百川智能技術聯(lián)合創(chuàng)始人謝劍將離職。他是百川只能的

  • 百度智能云PaddleOCR 3.1正式發(fā)布:關鍵能力支持MCP

    百度AI團隊今日正式推出PaddleOCR3.1版本,以突破性的多語言組合識別(MultilingualCompositionPerception,MCP)技術為核心,徹底重構復雜文檔處理邊界。此次升級標志著OCR領域首次實現(xiàn)對同一文檔內任意混合語言文本的精準識別,為全球化企業(yè)、跨境業(yè)務及多元文化場

    標簽:
    ai智能
    ai技術
  • 宇樹科技加速沖刺科創(chuàng)板IPO,人形機器人龍頭估值飆至120億元

    “宇樹已形成硬件、算法、場景聯(lián)動的業(yè)務飛輪,自研率超95%的技術壁壘讓其成為全球機器人賽道不可忽視的中國力量?!笔壮藤Y本管理合伙人朱方文在追加投資時如是評價。7月7日,據(jù)每日經(jīng)濟新聞從宇樹科技投資方處獲悉,國內人形機器人領軍企業(yè)宇樹科技(UnitreeRobotics)已明確計劃于科創(chuàng)板IPO,預計

    標簽:
    宇樹科技
  • OpenAI推出GPT-5:AI大統(tǒng)一時代的到來?

    推理與多模態(tài)的終極融合,將徹底終結用戶在不同模型間切換的煩惱。7月7日,OpenAI正式確認將在今年夏季推出新一代人工智能模型GPT-5。這一突破性產(chǎn)品將整合現(xiàn)有的多個強大模型,特別是融合專注推理能力的“O系列”與具備多模態(tài)功能的“GPT系列”,為用戶提供前所未有的統(tǒng)一體驗。OpenAI開發(fā)者體驗負

    標簽:
    chatgpt
  • 中小AI企業(yè),沒有“高考”資格

    高考一結束,忙壞了海內外一眾大模型。豆包、DeepSeek、ChatGPT、元寶、文心一言、通義千問……掀起了一波“AI趕考”大戰(zhàn)。據(jù)悉,去年高考期間,大模型的成績才勉強過一本線,今年集體晉升985。據(jù)悉,豆包甚至過了清北的錄取線。頭部大模型在高考“考場”上玩得不亦樂乎,中小AI創(chuàng)企的處境卻日益尷尬

    標簽:
    ai智能
  • 大模型搶灘高考志愿填報,能否頂替「張雪峰」們?

    文/二風來源/節(jié)點財經(jīng)每年高考成績放榜后,數(shù)千萬考生和家長將迎來另一場硬仗——填報志愿。今年,這一領域迎來了AI的全面介入,多家互聯(lián)網(wǎng)大廠和教育公司紛紛推出智能志愿填報產(chǎn)品,為考生提供院校和專業(yè)選擇建議。據(jù)艾媒咨詢數(shù)據(jù),2023年中國高考志愿填報市場付費規(guī)模約9.5億元,近九成考生愿意借助志愿填報服

    標簽:
    大模型
  • 蘋果AI掉隊?現(xiàn)在唱衰或許還為時過早

    蘋果還沒從WWDC25的“群嘲”中走出,又迎來了一次新的痛擊。據(jù)路透社報道,21日,蘋果公司遭到股東集體起訴,被指在信息披露中低估了將先進生成式AI整合進語音助手Siri所需的時間,導致iPhone銷量受影響、股價下滑,構成證券欺詐。在這份訴訟中,庫克、首席財務官凱文·帕雷克及前首席財務官盧卡·馬埃

  • DeepSeek、豆包向左,盤古大模型向右

    華為的盤古大模型終于推出新版本了。6月20日華為云計算CEO張平安宣布基于CloudMatrix384超節(jié)點的新一代昇騰AI云服務全面上線,盤古大模型5.5同步發(fā)布。不過,當前國內的AI大模型競爭可謂是相當激烈,華為的盤古大模型在眾多大模型中并不是十分出眾。華為云此次重磅推出的盤古大模型5.5能否從

熱門排行

編輯推薦