和自動駕駛發(fā)展初期一樣,具身智能也迎來了“數(shù)據(jù)荒”時刻。
據(jù)相關(guān)分析數(shù)據(jù)顯示,具身
機(jī)器人訓(xùn)練大約需要數(shù)千億級的交互數(shù)據(jù),然而全行業(yè)現(xiàn)存數(shù)據(jù)卻僅幾百萬條,存在10萬倍的缺口。
如此巨大的數(shù)據(jù)鴻溝,僅靠單一企業(yè)或機(jī)構(gòu)獨立采集與積累,顯然不現(xiàn)實。
正是洞察這一點,具身智能行業(yè)正一改過去單打獨斗的做法,積極探索產(chǎn)業(yè)協(xié)同。從創(chuàng)業(yè)公司到產(chǎn)業(yè)巨頭,再到地方政府,各方力量紛紛加入數(shù)據(jù)共建行列,試圖從源頭打破數(shù)據(jù)“孤島”,為具身智能產(chǎn)業(yè)演進(jìn)提供更充足的“養(yǎng)料”。
破解“數(shù)據(jù)荒”,不能再單打獨斗
近日,由工信部指導(dǎo)、開放原子開源基金會發(fā)起,樂聚機(jī)器人牽頭,聯(lián)合螞蟻靈波、上海交大、宇樹等核心單位共建的“具身智能開源數(shù)據(jù)集社區(qū)”正式啟動。
這則消息如果放在兩年前,可能只是具身智能行業(yè)的一條“簡訊”。但在2026年的今天,有了完全不同的分量。
作為國家級平臺發(fā)起的首個具身智能開源數(shù)據(jù)集社區(qū),該項目的目標(biāo)寫得很直白:打破具身智能產(chǎn)業(yè)“數(shù)據(jù)孤島、采集成本高、標(biāo)注效率低、模型泛化弱”四重枷鎖。
翻譯成大白話就是——具身“數(shù)據(jù)荒”這事,靠單打獨斗搞不定了。
由于具身智能產(chǎn)業(yè)的發(fā)展高度依賴數(shù)據(jù)飛輪驅(qū)動,過去幾年賽道企業(yè)幾乎都自建了數(shù)采體系,并視數(shù)據(jù)為核心競爭力。然而邁入2026年,龐大的數(shù)據(jù)缺口像一面鏡子,逐漸讓所有人看清了一個現(xiàn)實:沒有任何一家企業(yè)能獨自填滿這個窟窿。
于是,行業(yè)心態(tài)開始發(fā)生微妙變化,不僅國家級平臺開始牽頭“攢局”,甚至樂聚、宇樹、智元這些曾經(jīng)的競爭對手,也紛紛把數(shù)據(jù)拿出來共享,一邊共建行業(yè)聯(lián)盟,一邊開源自家數(shù)據(jù)集。
比如智元AgiBot World、樂聚LET、銀河通用 DexonomySim、它石智航WIYH、樞途科技HORA、簡智10Kh RealOmni、靈巧智能DexCanvas等數(shù)據(jù)集,目前都已宣布開源,覆蓋多模態(tài)訓(xùn)練、人形機(jī)器人靈巧操作、全身運(yùn)動等多個領(lǐng)域。
其中它石智航還發(fā)起了“具身數(shù)據(jù)星火計劃”,目標(biāo)推動實現(xiàn)1億小時級別的數(shù)據(jù)共享。地平線、地瓜機(jī)器人與無問智科,也于近期聯(lián)合發(fā)起了10000 + 小時具身智能開源數(shù)據(jù)集計劃。
為什么大家突然對數(shù)據(jù)集開源這么熱衷了?
“對企業(yè)而言,開源這件事其實沒什么風(fēng)險??赡茉谶@個過程中,有些企業(yè)更多是借此換取影響力,但數(shù)據(jù)開源后其實大家也可以相互交流、共同創(chuàng)新,由此產(chǎn)生的價值可能會更大。”相關(guān)業(yè)內(nèi)人士表示。
換言之,單家企業(yè)能觸及的場景、能采集的數(shù)據(jù)終究有限。開源之后,可以有更多的開發(fā)者幫忙看bug、提優(yōu)化——這哪里是“共享”,分明是“眾包”研發(fā)。
如果說企業(yè)層面的開源,是市場力量的橫向協(xié)同,那么地方政府的介入,就是縱向的基礎(chǔ)設(shè)施投入。
據(jù)蓋世汽車研究院不完全統(tǒng)計,2025年僅地方購入的數(shù)采機(jī)器人訂單金額就超過了10億元。
其后,據(jù)權(quán)威研究機(jī)構(gòu)Interact Analysis調(diào)研數(shù)據(jù)顯示,截至2025年年底,中國已經(jīng)有50個以上國家或省市區(qū)級人形機(jī)器人數(shù)采中心處于使用或規(guī)劃建設(shè)中,分布在大約19個省份,其中50%以上的數(shù)采中心已經(jīng)在2025年投入使用。
從規(guī)模來看,上海張江機(jī)器人谷和北京石景山具身智能綜合實訓(xùn)場等,目前均已部署近百臺數(shù)采機(jī)器人。
這些數(shù)字背后是一個清晰的判斷:數(shù)據(jù)采集正在從“企業(yè)行為”變成“政府工程”。
但真正把這場集體行動推向高潮的,是京東。
日前,京東宣布將于一年內(nèi)積累500萬小時人類真實場景視頻數(shù)據(jù),兩年內(nèi)突破1000萬小時,同步實現(xiàn)采集機(jī)器人本體數(shù)據(jù)100萬小時——這個量級,無疑讓很多公司望塵莫及。
目前,京東已建成行業(yè)領(lǐng)先的機(jī)器人數(shù)據(jù)采集中心,構(gòu)建“采集—標(biāo)注—訓(xùn)練—驗證”全流程數(shù)據(jù)流水線。
更讓人驚嘆的是該項目的采集規(guī)模:京東將發(fā)動數(shù)十萬人參與數(shù)據(jù)采集——包括內(nèi)部超過10萬名各類職業(yè)員工,以及外部最多50萬名各行業(yè)人員,其中僅在宿遷就將發(fā)動超10萬名市民參與。從家庭、辦公室到物流、商店、醫(yī)療,覆蓋超百個細(xì)分場景。
如果京東這一計劃順利落地,有望成為“人類歷史上規(guī)模最大的數(shù)據(jù)采集行動”。
但熱鬧歸熱鬧,一個疑問隨之而來:既然數(shù)據(jù)對于具身智能的重要性行業(yè)早已深知,為何直到現(xiàn)在才被推向如此高度?
在蓋世汽車研究院分析師看來,這是因為當(dāng)前具身機(jī)器人的運(yùn)動控制已經(jīng)趨于成熟,缺乏真實數(shù)據(jù)成了訓(xùn)練通用“大腦”的最大瓶頸。
過去兩年,具身智能領(lǐng)域的焦點,主要集中在機(jī)器人本體研發(fā)和運(yùn)動能力的突破上,例如:如何讓機(jī)器人更穩(wěn)定地行走甚至奔跑,以及更靈活地抓取物體等。目前,這些問題正逐步得到解決,機(jī)器人的身體越來越靈活,反而機(jī)器人的大腦開始不”夠用”了。
而要訓(xùn)練出真正通用的機(jī)器人“大腦”,海量高品質(zhì)的數(shù)據(jù)恰恰是最核心的“養(yǎng)料”。
不過,在京東數(shù)采規(guī)劃刷爆網(wǎng)絡(luò)的同時,也不乏質(zhì)疑聲。
“利用真實業(yè)務(wù)場景和‘人海戰(zhàn)術(shù)’獲取海量數(shù)據(jù),理論上可行,且直擊行業(yè)數(shù)據(jù)荒的痛點。但成敗關(guān)鍵更在于能否采集到包含力覺、觸覺的高質(zhì)量動作數(shù)據(jù),否則可能淪為低效的視頻數(shù)據(jù)堆砌。”蓋世汽車研究院前述分析師就認(rèn)為。
這句話無疑戳中了具身數(shù)采的核心:規(guī)模不等于質(zhì)量,視頻不等于有效數(shù)據(jù)。
數(shù)十萬人戴著采集設(shè)備逛超市、送快遞,產(chǎn)出的海量視覺數(shù)據(jù),固然能讓機(jī)器人學(xué)會“什么是門”“什么是蘋果”,但能讓它們學(xué)會“用多大力度捏住雞蛋而不碎”嗎?
答案目前還不得而知。
即便有數(shù)據(jù),怎么用更關(guān)鍵
對于具身智能而言,當(dāng)前產(chǎn)業(yè)鏈層面的由分到合,解決的是數(shù)據(jù)從哪里來的問題。
而在水面之下,另一場更深層的融合也在同步發(fā)生:不同數(shù)據(jù)技術(shù)路線之間的使用界線,正在變得模糊。
日前,在英偉達(dá)GTC 2026上,Physical Intelligence(PI)聯(lián)合創(chuàng)始人Chelsea Finn就直言,很多人原本以為,如果讓機(jī)器人形態(tài)最接近人類,就能最好地從人類視頻遷移。但實際上,當(dāng)機(jī)器人數(shù)據(jù)本身足夠多樣時,模型反而更容易把“人類數(shù)據(jù)”和“機(jī)器人數(shù)據(jù)”之間的點連起來。
“所以我們不僅利用機(jī)器人的真實數(shù)據(jù),也利用其他數(shù)據(jù)源,尤其是網(wǎng)絡(luò)視頻、人類視頻等,目標(biāo)訓(xùn)練出一個真正有泛化能力的模型:能跨具身形態(tài)、跨環(huán)境、跨任務(wù)工作。”Chelsea Finn 表示。
這話聽著繞口,但翻譯過來就一句:別只押注單一數(shù)據(jù)源。
蓋世汽車研究院分析師亦認(rèn)為,雖然說UMI便攜采集是對數(shù)據(jù)質(zhì)量和規(guī)模的有效平衡,但這并不意味著遙操作采集、仿真合成等技術(shù)路線會被取代。“更現(xiàn)實的情況是,具身智能數(shù)據(jù)體系應(yīng)該是一個分層采用、分階段取舍的系統(tǒng)”。
比如千尋智能,就堅定以“多樣性”為核心推進(jìn)Scaling路線。目前,該公司已累計獲取超20萬小時多類型真實交互數(shù)據(jù),覆蓋互聯(lián)網(wǎng)視頻、遙操作、可穿戴采集等維度,預(yù)計2026年總量將進(jìn)一步突破100萬小時。
穹徹智能研究科學(xué)家呂峻也指出,由于遙操作采集在數(shù)據(jù)質(zhì)量、模型訓(xùn)練等方面的優(yōu)勢,在UMI之外,穹徹智能直到今天也仍在持續(xù)這種模式。
那么問題來了,雖然說數(shù)采路線多元融合已經(jīng)是行業(yè)共識,具體該怎么融合呢?
一個被反復(fù)提及的答案是:分層使用,各取所長。更具體一點,也即是:預(yù)訓(xùn)練打底,真機(jī)點睛,用低成本數(shù)據(jù)覆蓋廣度,用高精度數(shù)據(jù)確保深度。
對于通過遙操作采集、UMI、仿真合成、人類視頻學(xué)習(xí)四種方式獲取的數(shù)據(jù),Agility CTO Pras Velagapudi在GTC上畫了一座“金字塔”,其中位于塔尖的正是遙操作采集到的數(shù)據(jù)——最難獲取、量最小,但質(zhì)量最高。往下依次是UMI、第一人稱視角數(shù)據(jù)、通用視頻——越往下越好采集,量越大,但信息密度也越低。
所以他的觀點很清晰:盡量用塔尖的數(shù)據(jù)做最核心的任務(wù),同時盡可能利用塔底數(shù)據(jù)預(yù)訓(xùn)練的模型作為起點。
值得關(guān)注的是,目前這套邏輯正在成為行業(yè)通用語言。
宇樹科技創(chuàng)始人王興興也認(rèn)為,應(yīng)該盡可能在預(yù)訓(xùn)練階段,多使用視頻數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、仿真數(shù)據(jù)等,先把基礎(chǔ)模型訓(xùn)練出來,再提高對真實機(jī)器人數(shù)據(jù)的利用效率。這樣,真機(jī)數(shù)據(jù)可以更少,但系統(tǒng)依然能夠跑起來。
“哪怕你真的有一萬臺機(jī)器人,也派一萬人去采數(shù)據(jù),最后效果也不一定好。因為這里面還有數(shù)據(jù)質(zhì)量、硬件差異、傳感器差異等很多問題。不是說機(jī)器數(shù)量多了,數(shù)據(jù)效果就一定會線性提升。”所以他認(rèn)為,大家應(yīng)該進(jìn)一步提高數(shù)據(jù)利用率,盡可能多利用視頻數(shù)據(jù)和仿真數(shù)據(jù),減少對真機(jī)大規(guī)模采集的依賴。
Skild AI CEO Deepak Pathak用一個更生動的類比解釋了這套打法:就像小孩看成人學(xué)習(xí),身體比例完全不同,但通過觀察和實踐,仍然能學(xué)到東西。
不過,盡管行業(yè)對具身數(shù)據(jù)技術(shù)路線的融合已經(jīng)形成共識,一個不容忽略的事實是:在這場數(shù)采路線之爭里,還有一只看不見的手在悄然影響著行業(yè)格局。
“數(shù)據(jù)這件事,尤其是數(shù)采廠,有地方政府的助力,就會更傾向與本體公司及地方政府合作,從而獲得很大的機(jī)會用當(dāng)期收入建設(shè)以遙操作為主的數(shù)采中心,也就較少去發(fā)展像UMI這樣的數(shù)據(jù)采集方式。”有業(yè)內(nèi)人士表示。
這話說得委婉,但潛臺詞也很明顯:政府的支持就像一把雙刃劍,既能在短期內(nèi)快速鋪開數(shù)據(jù)基建,讓行業(yè)跑出加速度,但也可能讓技術(shù)路線產(chǎn)生路徑依賴,延緩UMI這類更靈活、更低成本的方案在中國的落地節(jié)奏。
試想一下,如果沒有政府的支持和補(bǔ)貼,還會有這么多數(shù)采中心用遙操作方式采集數(shù)據(jù)嗎?答案是顯而易見的。
結(jié)語
當(dāng)政策、產(chǎn)業(yè)、資本三股力量同時注入,當(dāng)遙操作、UMI、仿真合成、人類視頻學(xué)習(xí)等多條技術(shù)路線并行向前,具身智能的數(shù)據(jù)困境正在從“能不能解決”變成“什么時候解決”。
就如曾經(jīng)的自動駕駛,產(chǎn)業(yè)發(fā)展初期一樣面臨數(shù)據(jù)短缺難題,但通過產(chǎn)業(yè)鏈上下游的協(xié)同發(fā)力,以及海量真實道路數(shù)據(jù)的積累與算法迭代,如今行業(yè)已經(jīng)成功實現(xiàn)了從L2到更高級別自動駕駛的突破。
具身智能必然也會沿著類似的軌跡前行,不同技術(shù)路線在競爭中相互借鑒、優(yōu)勢互補(bǔ),最終逐步擺脫“數(shù)據(jù)荒”的束縛。