在端到端一統江湖但數據瓶頸開始成為新挑戰後,必須轉向強化學習,必須把雲端生成式世界模型作為新基座。
特斯拉自動駕駛副總裁Ashok Elluswamy在演講中透露,當前特斯拉正在用世界模擬器來評估車端模型。幾乎同時,理想VLA模型負責人詹錕也圍繞世界模型,在具身智能研討會做了題為《World Model:Evolving from Data Closed-loop to Training Closed-loop》(世界模型讓我們從數據閉環走向訓練閉環)的分享。
首先回憶一下上半場,端到端架構統一自動駕駛的技術棧,釋放了Scaling Law的潛力,讓AI能力快速提高。
但理想很快發現,AI基于模仿學習只能學到數據的平均水平,難以超越人類司機的能力,技術範式需要改變。幾乎同時,大規模算力基礎設施和高保真仿真環境技術也在快速成熟,為範式遷移創造了條件。于是理想決定從數據閉環邁向訓練閉環。
數據閉環大家都很熟悉了,就是數據採集、模型訓練、評估和部署的循環,但這無法覆蓋到一些邊緣場景。
具體實現方法如下:理想在雲端構建了一套世界模型訓練環境,來訓練具備先驗知識和駕駛能力的車端VLA模型凱發k8娛樂官網入口。這是全球首個將世界模型與強化學習閉環落地于量產自動駕駛系統的完整架構。
由于行業對世界模型的定義有所不同,這裡需要說明一下,理想所說的世界模型是一個全面的系統,包括環境的構建、智能體的構建、反饋的構建以及場景的多種推演世界模型是理想此次在ICCV分享的核心內容禁室培欲 雷凱欣,據介紹該系統主要具備三大能力:
首先是區域級別的仿真和評估,這是車端VLA能進行長時序擬真評估的關鍵。據介紹,理想目前採用重建和生成結合的仿真路線禁室培欲 雷凱欣。
因為在理想看來,重建和生成各具優勢。重建能把操作對象完美還原,穩定性更好,但一般輸出的是靜態結果。
比如理想此前參與的首個自動駕駛3DGS街景重建算法Street Gaussians,該工作被頂會ECCV 2024收錄。
Hierarchy UGP是業內首個大規模自動駕駛重建模型,在作者專有的數據集和公開的Waymo數據集上都實現了SOTA。
該模型分為根、子場景和圖元三層。其中根層是入口,然後子場景層將空間進一步劃分凱發k8娛樂官網入口,並提取出各種元素。最後圖元層用定義在4D空間的統一高斯圖元(Unified Gaussian Primitive)將元素建模。這個方法可以同時對剛性和非剛性運動重建。
以上兩項成果主要圍繞重建工作凱發k8娛樂官網入口,此外在重建和生成結合方向上,理想還聯合GigaAI提出基于補充生成新視角的重建範式ReconDreamer,相關成果入選了今年的CVPR。
盡管過去在重建方面取得了不錯的成績,但詹錕認為由于生成方式能低成本、大規模生成邊緣場景,而且數據很多樣,所以未來的仿真工作中,重建的佔比將越來越少,對應地生成的佔比越來越多,而且該趨勢不可逆。
探討完世界模型的第一層應用仿真,再往下來看合成全新數據能力,可以構建多樣的場景集禁室培欲 雷凱欣,讓場景的數據均衡分布凱發k8娛樂官網入口,最終實現更全面的評估,提高模型性能。
在理想看來,合成數據主要有場景編輯、遷移和全場景生成這三層應用。這項能力讓理想的數據更全面,從下圖中可以看出,過去依靠採集方式獲取的數據(上半部分),集中在晴天、普通道路和普通車輛等簡單場景,而現在與合成的數據結合後(下半部分),覆蓋場景更廣、極端案例更多、種類更加復雜,對應地模型能得到更全面的提升。
最後一層應用是理想認為最具挑戰性的強化學習世界引擎,這一層讓模型能在訓練環境中自由探索並獲得反饋,主要有五大關鍵因素:
在五個因素中,理想認為仿真智能體是目前最棘手的問題,完整地建模他車、他車和自車以及他車和他車的交互行為禁室培欲 雷凱欣,甚至比實現單車L4級自動駕駛還要難
詹錕在分享中介紹了兩種解決方法,一種是業內此前嘗試過的自博弈(Self-play),另一種是理想應用的範式。其通過給定目標函數和獎勵函數來約束多個智能體的行為,包括他們的個體動態和交互動態,同時通過調整獎勵權重改變智能體的行為分布,從而實現樣本多樣性。
上述一系列技術成果推動著理想的輔助駕駛能力快速進步,開始通過漸進升維方式禁室培欲 雷凱欣,向L4邁進。詹錕在分享中還展示了一小段理想在園區內部道路的輔助駕駛能力。
理想在一眾造車新勢力中率先實現盈利,跑通商業化閉環,這是其近年科研成果不斷開花落地的重要原因。
2023年和2024年,理想全年研發投入連續超百億元,2025年上半年財報顯示,理想同期研發投入為53億元,預估今年仍將超過百億。
數百億砸向的不僅僅是上層的輔助駕駛算法凱發k8娛樂官網入口,還包括底層的整車操作系統理想星環OS。星環OS首次上車于2024年凱發k8娛樂官網入口,一方面實現了開發過程中的軟硬件解耦,將芯片的適配和驗證加快至4週內完成。
另一方面,星環OS上車後打通了整車割裂的多個模塊,提升了車輛整體的性能,以AEB(自動緊急制動)功能為例禁室培欲 雷凱欣,實現該功能一般需要經過以下三個環節:
整個功能鏈路經過了多個控制器,它們分別屬于不同域,信息在每個環節中傳遞,就像咱們工作中要協調多個部門,在傳統架構下會產生一些延遲。而星環OS採用跨系統架構設計,能夠讓不同控制器響應更快,協調更好。
據理想介紹,在車輛以120km/h速度行駛的情況下,星環OS相比傳統OS可以縮短7米剎停距離,7米距離,極端情況下很可能就是兩個相反的結果。
該成果不僅服務著130多萬名理想車主,在今年也開始惠及整個行業。2025年3月,理想星環OS正式亮相隨後開源,相關源碼逐步公開。
據理想介紹禁室培欲 雷凱欣,自研星環OS投入資金超10億,上車後每年整體降低了幾十億BOM成本。所以說,這項成果開源給行業後也能夠幫助很多車企省去數億元研發預算,快速獲得整車OS能力。
自己開源,幫行業節流,一個圍繞星環OS的生態聯盟很快成形。2025年9月,長城汽車、英飛凌、芯馳科技、匯川聯合動力、欣旺達和德賽西威等16位產業鏈玩家與理想汽車共同簽署《星環OS社區章程》。
值得一提的是,理想的開源成果不僅得到了工業界的積極響應,也被學術界AI頂會認可。本屆ICCV就收錄了理想的開源數據集3DRealCar
3DRealCar採用完全開放可商用的Apache 2.0開源協議,其包含了2500輛真實汽車,平均每輛車採集了200張高分辨率RGB-D圖像,是目前行業唯一的高質量、大規模線度視角和不同光照條件。凱發國際。凱發K8娛樂官網版學術交流,
