硅谷中美具身智能企業(yè)圓桌討論:四大核心問題的行業(yè)解法
文|周鑫雨
編輯|楊軒
規(guī)?;涞匾呀?jīng)成為2026年全球具身智能從業(yè)者共同瞄準(zhǔn)的核心目標(biāo),行業(yè)競(jìng)速已經(jīng)清晰擺在了各家企業(yè)的產(chǎn)能數(shù)據(jù)、招股文件與出貨量報(bào)表中。
今年以來,國(guó)內(nèi)企業(yè)的量產(chǎn)速度格外搶眼:智元機(jī)器人的第1萬臺(tái)量產(chǎn)機(jī)器人僅用三個(gè)多月就完成了從5000臺(tái)到10000臺(tái)的跨越,順利下線;宇樹科技披露的招股書也展現(xiàn)了兇猛的商業(yè)化態(tài)勢(shì),2025年全年?duì)I收達(dá)17.07億元,出貨量突破5500臺(tái)。
亮眼數(shù)字的背后,是主打「高性價(jià)比」的中國(guó)具身智能產(chǎn)品在全球市場(chǎng)的快速擴(kuò)張。宇樹科技創(chuàng)始人王興興就在2025年世界機(jī)器人大會(huì)上公開表示,過去幾年公司海外營(yíng)收占比始終保持在50%以上。
在國(guó)內(nèi)一眾新興具身智能企業(yè)中,由追覓在2024年孵化的魔法原子MagicLab是入行最晚的玩家之一,近期這家公司提出了一個(gè)相當(dāng)激進(jìn)的遠(yuǎn)期目標(biāo):到2036年實(shí)現(xiàn)140億美元的年?duì)I收。
為了推進(jìn)全球品牌布局,魔法原子直接把新品發(fā)布會(huì)搬到了硅谷。美西時(shí)間2026年4月28日,全球具身智能創(chuàng)新大會(huì)(GEIS)在匯集了Adobe、TikTok、IBM等科技巨頭的圣何塞舉辦。

會(huì)上,魔法原子的MagicBot Z1機(jī)器人還現(xiàn)場(chǎng)為張藝興進(jìn)行了操作展示,本文圖片均為作者現(xiàn)場(chǎng)拍攝
本次大會(huì)上,魔法原子一次性發(fā)布了從底層模型到本體硬件的一整套新產(chǎn)品:
世界模型Magic-Mix:這是魔法原子自研的自主進(jìn)化模型,由兩大核心引擎構(gòu)成——負(fù)責(zé)讓機(jī)器人理解真實(shí)物理世界的Magic-WAM,以及支持離線批量生成訓(xùn)練數(shù)據(jù)的Magic-Creator。這套架構(gòu)讓Magic-Mix可以進(jìn)入「數(shù)據(jù)生成-模型訓(xùn)練-真實(shí)場(chǎng)景反饋-二次生成數(shù)據(jù)」的閉環(huán),實(shí)現(xiàn)模型的持續(xù)自主迭代升級(jí)。

靈巧手MagicHand H01:整手具備20個(gè)自由度,接近人手24-27自由度的水平,同時(shí)搭載了44個(gè)高分辨率三維觸覺傳感器,主打工業(yè)制造、生活護(hù)理等對(duì)精細(xì)操作有要求的場(chǎng)景。

人形機(jī)器人MagicBot X1:這款人形機(jī)器人身高180cm,體重70kg,全身配備31個(gè)主動(dòng)自由度,最大關(guān)節(jié)扭矩可達(dá)450N·m,搭載了支持無限續(xù)航的雙電系統(tǒng),可以實(shí)現(xiàn)7*24小時(shí)連續(xù)作業(yè)。產(chǎn)品分為兩個(gè)版本:標(biāo)準(zhǔn)版主打商業(yè)落地,開箱即可部署;科研版則面向高校、實(shí)驗(yàn)室、開發(fā)者與產(chǎn)業(yè)合作方,開放底層二次開發(fā)權(quán)限,同時(shí)支持外形定制。

本次大會(huì)還邀請(qǐng)了Openmind、PrismaX、Chestnut Roborics等多家硅谷本土的具身大腦與本體企業(yè)參會(huì),現(xiàn)場(chǎng)嘉賓圍繞數(shù)據(jù)、模型、硬件、落地四個(gè)行業(yè)最關(guān)心的核心問題,分享了中美從業(yè)者的不同思路與解法,以下是本次討論的整理:
機(jī)器合成數(shù)據(jù)訓(xùn)練效果,會(huì)比真實(shí)數(shù)據(jù)更好嗎?
高質(zhì)量訓(xùn)練數(shù)據(jù)稀缺,長(zhǎng)期以來都是限制具身智能模型發(fā)展的核心瓶頸。目前真機(jī)采集數(shù)據(jù)不僅成本高、周期長(zhǎng),也很難覆蓋全場(chǎng)景的各類需求。
用機(jī)器合成訓(xùn)練數(shù)據(jù),是行業(yè)提出的一個(gè)核心解決方案,但合成數(shù)據(jù)一直存在真實(shí)物理信息缺失的問題,比如接觸面摩擦系數(shù)、動(dòng)作延遲、觸覺反饋等細(xì)節(jié)很難1:1還原,業(yè)界一直擔(dān)憂模擬數(shù)據(jù)和真實(shí)場(chǎng)景之間存在難以跨越的「仿真到現(xiàn)實(shí)鴻溝(sim-to-real-gap)」。
混合數(shù)據(jù)訓(xùn)練,是當(dāng)前中美從業(yè)者達(dá)成共識(shí)的主流方案。魔法原子總裁顧詩韜介紹,公司目前日均可以采集約16000條真實(shí)數(shù)據(jù),再通過數(shù)據(jù)合成技術(shù)將整體訓(xùn)練數(shù)據(jù)體量擴(kuò)充一萬倍。她提到,新能源汽車制造業(yè)迭代速度快,60%-70%的工序都需要人工操作,是天然的真實(shí)數(shù)據(jù)采集富礦。
當(dāng)前行業(yè)已經(jīng)形成共識(shí):選擇真實(shí)數(shù)據(jù)還是合成數(shù)據(jù),要根據(jù)具體的訓(xùn)練目標(biāo)和應(yīng)用場(chǎng)景判斷,不能一概而論。
亞馬遜前沿AI與機(jī)器人研究院科學(xué)家Haozhi Qi指出,合成數(shù)據(jù)適合用來訓(xùn)練機(jī)器人掌握單一基礎(chǔ)反應(yīng)技能,但很難讓機(jī)器人學(xué)會(huì)制作早餐這類需要多步驟銜接的長(zhǎng)程復(fù)雜技能——想要還原這類任務(wù),構(gòu)建足夠豐富模擬環(huán)境的成本太高,這種場(chǎng)景就必須引入真實(shí)數(shù)據(jù)訓(xùn)練。
英偉達(dá)GEAR Lab高級(jí)研究科學(xué)家Zhengyi Luo則透露,自己團(tuán)隊(duì)目前采用的數(shù)據(jù)配比是:50%模擬數(shù)據(jù)用于基礎(chǔ)訓(xùn)練,15%動(dòng)作捕捉數(shù)據(jù)加25%互聯(lián)網(wǎng)視頻數(shù)據(jù)用于讓模型學(xué)習(xí)理解人類動(dòng)作,最后再加入10%高質(zhì)量真實(shí)場(chǎng)景數(shù)據(jù)完成訓(xùn)練。他還提到,現(xiàn)在已經(jīng)有企業(yè)會(huì)用公開社交媒體上的內(nèi)容,作為機(jī)器人本體設(shè)計(jì)的參考。
VLA(視覺-語言-行動(dòng))是具身智能「大腦」的最優(yōu)解嗎?
憑借出色的任務(wù)泛化能力,VLA已經(jīng)成為當(dāng)前具身模型最主流的架構(gòu)方案。
但一個(gè)很直觀的例子就能看出它的局限:人類轉(zhuǎn)動(dòng)指尖的籃球時(shí),只需要觸覺和本體感知就能完成,不需要視覺介入——這說明VLA架構(gòu)在觸覺和本體感知兩個(gè)維度存在明顯短板。
在本次GEIS大會(huì)上,Haozhi Qi給出了自己的觀點(diǎn):VLA成為主流,其實(shí)和當(dāng)前硬件傳感器的發(fā)展階段直接相關(guān):如今視覺傳感器技術(shù)已經(jīng)相當(dāng)成熟,但觸覺傳感器還處于發(fā)展初期,技術(shù)并不完善。
因此,具身系統(tǒng)需要用其他成熟的感知輸入,來補(bǔ)全還不夠成熟的觸覺傳感短板,才能支撐機(jī)器人完成正常操作。從這個(gè)角度來說,用視覺和語言補(bǔ)足觸覺缺陷的VLA,確實(shí)是當(dāng)下條件下最好的解決方案之一。但未來隨著傳感器和硬件技術(shù)進(jìn)步,具身模型的算法架構(gòu)也會(huì)隨之迭代升級(jí)。
靈巧手三條技術(shù)路線比拼:連桿、腱繩與直驅(qū)
當(dāng)前靈巧手設(shè)計(jì)領(lǐng)域最核心的爭(zhēng)論,就是要不要做和人手高度相似的設(shè)計(jì)。圍繞這個(gè)問題,行業(yè)分化出連桿、腱繩、直驅(qū)三種不同技術(shù)路線。
三者各有優(yōu)劣:連桿結(jié)構(gòu)最不像人手,但成本低、控制難度小;腱繩結(jié)構(gòu)最接近人手構(gòu)造,可以完成高精度精細(xì)操作,但成本高、控制算法難度大;直驅(qū)則是介于前兩者之間的折中方案,把驅(qū)動(dòng)單元直接集成在每個(gè)關(guān)節(jié)上,但不僅成本偏高,在力傳導(dǎo)效率和熱管理方面還存在不少工程難題待解決。
融合多種路線的混合架構(gòu),是近期興起的新技術(shù)方向。Chestnut Robotics創(chuàng)始人、前特斯拉Optimus靈巧手核心成員Evan Tao介紹,自己的團(tuán)隊(duì)就選擇了混合架構(gòu)方案:以能完成精細(xì)操作的腱繩結(jié)構(gòu)為主體,搭配AI控制和自主學(xué)習(xí)系統(tǒng)。他認(rèn)為未來所有靈巧手方案,都會(huì)在操作靈活度和工程可靠性之間尋找平衡。
機(jī)器人怎樣才能實(shí)現(xiàn)真正的規(guī)?;涞??
在數(shù)據(jù)層面,引入真實(shí)世界數(shù)據(jù),依舊被認(rèn)為是讓機(jī)器人真正理解應(yīng)用場(chǎng)景、學(xué)會(huì)復(fù)雜任務(wù)操作的核心。
XGSynBot CEO Zizheng Li介紹,公司采用的混合數(shù)據(jù)策略也會(huì)加入少量高質(zhì)量真實(shí)數(shù)據(jù),這樣既能控制整體采集成本,也能有效提升模型能力和泛化水平。
在系統(tǒng)架構(gòu)層面,Zizheng Li認(rèn)為機(jī)器人需要從「單一功能設(shè)備」向「多任務(wù)通用平臺(tái)」升級(jí),比如XGSynBot的機(jī)械臂就配備了支持6種快拆的模塊化結(jié)構(gòu),這樣一臺(tái)機(jī)器人就能在不同工序之間靈活切換,能適配更多不同的落地場(chǎng)景。
最后OpenMind創(chuàng)始人、斯坦福大學(xué)生物工程副教授Jan Liphardt總結(jié)了參會(huì)者的共同觀點(diǎn):讓機(jī)器人進(jìn)入真實(shí)世界,越早越好。
他發(fā)現(xiàn),實(shí)驗(yàn)室環(huán)境根本無法模擬所有現(xiàn)實(shí)中會(huì)遇到的復(fù)雜場(chǎng)景:過強(qiáng)的環(huán)境光線、泥濘潮濕的地面、生銹卡頓的門鉸鏈、多個(gè)系統(tǒng)同時(shí)運(yùn)行帶來的負(fù)載壓力——這些復(fù)雜的細(xì)節(jié),往往是機(jī)器人離開實(shí)驗(yàn)室后出現(xiàn)系統(tǒng)故障的原因。
因此,機(jī)器人不應(yīng)該在落地前一直待在實(shí)驗(yàn)室里打磨。Jan Liphardt建議,開發(fā)者應(yīng)該盡早讓機(jī)器人進(jìn)入家庭、學(xué)校、機(jī)場(chǎng)、幼兒園等各類真實(shí)公共場(chǎng)景完成實(shí)際部署,在真實(shí)交互中收集數(shù)據(jù),實(shí)現(xiàn)持續(xù)迭代。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com







