物理AI商業(yè)化落地,工廠或成首個破局點
本文來自微信公眾號:極客公園,作者:LiYuan,編輯:鄭玄
近兩年來,人形機器人與具身智能領(lǐng)域熱度持續(xù)攀升,融資消息、技術(shù)Demo與行業(yè)新概念不斷推高市場關(guān)注度。但在熱潮推進的過程中,一個現(xiàn)實問題逐漸凸顯:工業(yè)場景的落地門檻不會因為新概念的出現(xiàn)自動降低。
直到今年,一大批打出「進廠落地」旗號的企業(yè)真正扎根工業(yè)現(xiàn)場后,行業(yè)才看清一個事實:Demo跑通,不代表整套系統(tǒng)能在工廠長期穩(wěn)定、低故障運行。哪怕是Figure AI這樣的行業(yè)明星企業(yè),也開始從展示技術(shù)想象轉(zhuǎn)向驗證設(shè)備的連續(xù)作業(yè)能力。
如今資本與產(chǎn)業(yè)端的關(guān)注點正在轉(zhuǎn)移:企業(yè)到底擁有哪些可復(fù)制的落地場景?客戶為什么愿意付費采購?投入產(chǎn)出比能不能達到要求?
我們就此采訪了微億智造董事長兼CEO張志琦,他分享了微億從2018年開始,如何一步步將AI技術(shù)落地到真實工業(yè)現(xiàn)場;也聊到了在工廠環(huán)境中,視覺語言行動(VLA)技術(shù)哪些場景能用、哪些暫時還無法落地,以及工業(yè)具身智能最終可能走向何方。
01
從2018年起步:給傳統(tǒng)機械臂裝上AI大腦
極客公園:微億智造把自家產(chǎn)品定義為「工業(yè)具身智能機器人」,但從外觀來看,它還是機械臂、相機、工裝和產(chǎn)線設(shè)備的組合。就拿外觀檢測來說,傳統(tǒng)機械臂也能完成,工業(yè)具身智能機器人也能做,兩者到底有什么本質(zhì)區(qū)別?
張志琦:沒錯,兩種方案都能完成外觀檢測任務(wù),但用到的技術(shù)邏輯完全不同,最終給客戶帶來的價值也不一樣。
微億智造2018年剛成立的時候,我們的核心產(chǎn)品其實更接近傳統(tǒng)自動化設(shè)備:用一臺定焦相機拍攝工件,采集圖像后再用AI模型判斷缺陷類型,最后分揀出不同品質(zhì)的產(chǎn)品。
這種模式確實用AI做了賦能,但還稱不上是工業(yè)具身智能——本質(zhì)上,機器的每一步動作還是提前靠編程固定好的。
到2022年的時候,微億接到了一個大客戶的項目:給長度超過兩米的大型一體化壓鑄件做缺陷檢測和打磨。
這個零件需要拍攝近3000個點位,客戶要求整套流程必須在10分鐘以內(nèi)完成。但傳統(tǒng)機械臂根本做不到——光是按照預(yù)設(shè)軌跡打磨一遍,就要花一個小時,而熟練工人只需要七八分鐘就能做完。
差距其實不在機械臂的運動速度,而在自主判斷能力。工人會先定位缺陷位置,只加工有問題的區(qū)域;但傳統(tǒng)機械臂只能按照預(yù)設(shè)路徑走完全部點位。這個客戶此前找了兩年多服務(wù)商,始終沒能解決這個問題。
后來微億重新設(shè)計了一套「檢測加工一體化」的工業(yè)具身智能機器人。這套方案的基礎(chǔ),是我們從2018到2020年逐步研發(fā)成熟的飛拍技術(shù),能讓機械臂不停車連續(xù)拍攝,5分鐘以內(nèi)就能完成3000個點位的圖像采集。
更關(guān)鍵的變化是,這套系統(tǒng)的拍攝點位和運動軌跡可以由算法自動生成。
因為不需要提前人工設(shè)計軌跡,系統(tǒng)可以像工人一樣,先識別目標和缺陷,再判斷哪些位置需要打磨,自動生成加工軌跡。最終這套設(shè)備把檢測加打磨的總節(jié)拍壓縮到了7到10分鐘,已經(jīng)接近人工水平。
這種「感知—判斷—執(zhí)行」的自主能力,就是傳統(tǒng)自動化和工業(yè)具身智能的核心分界點。
極客公園:如果說在檢測打磨場景里,具身智能解決的是「先看、再判斷、再處理」的問題,那在其他場景中,它和傳統(tǒng)機械臂的差異還體現(xiàn)在哪里?
張志琦:就拿我們2024年展示的具身智能裝配機器人來說,兩者的差異會更加明顯。
現(xiàn)在針對一些簡單的裝配任務(wù),我們已經(jīng)可以做到:工人操作一遍,機器人通過視覺觀察一遍,就能理解裝配邏輯,再通過雙臂協(xié)同完成整個裝配過程。
對工業(yè)客戶來說,示教成本是非常關(guān)鍵的指標。在真實工廠里,每臺設(shè)備安裝都會有誤差,傳統(tǒng)機械臂需要每臺單獨示教調(diào)試,根本滿足不了柔性生產(chǎn)的需求,調(diào)試太麻煩,工廠寧愿直接用人工。
但我們現(xiàn)在只需要一次視覺示范,就能讓機器人理解操作邏輯,能大幅縮短客戶的項目導(dǎo)入時間。
除此之外,現(xiàn)在的機器人已經(jīng)可以應(yīng)對現(xiàn)場的不確定性。
比如機器人已經(jīng)抓到零件了,你把零件拿走,它會自己重新去尋找目標;本來要沿著固定路徑取料,你把路徑擋住,它會自己想辦法繞開。過去傳統(tǒng)機械臂更多是執(zhí)行工程師提前編好的動作,而搭載了AI「大腦」的機器人,可以根據(jù)現(xiàn)場環(huán)境變化重新做決策。
我們現(xiàn)在也在落地物流行業(yè)的碼籠場景,機器人可以兼容各類箱體和包裹,自動設(shè)計放置策略完成智能分籠,這些都是傳統(tǒng)機械臂做不到的。
02
VLA技術(shù)落地,要過工廠0.1毫米精度這道關(guān)
極客公園:要做到這些能力,你們用到的是VLA技術(shù)嗎?行業(yè)普遍認為VLA才是實現(xiàn)泛化能力的核心技術(shù)。
張志琦:我們認為,工廠現(xiàn)場的崗位大體可以分成兩類:一類是技術(shù)工種,一類是普通普工。
技術(shù)工種的經(jīng)驗很多都只掌握在老師傅手里,必須到具體現(xiàn)場才能積累得到。比如打磨、焊接、檢測這類技術(shù)崗,我們現(xiàn)在沒有用VLA架構(gòu),甚至認為未來也不一定需要用VLA架構(gòu)。
這類場景基于規(guī)則引擎,加上對目標對象的識別認知、軌跡自動規(guī)劃和執(zhí)行,甚至在執(zhí)行過程中完成有效糾偏、不斷優(yōu)化軌跡,就可以更快更高效地解決問題。它仍然屬于AI技術(shù),但其實不需要特別大的模型參數(shù)——百億級別,甚至幾十億參數(shù)就能解決問題。
而普工類崗位,比如碼垛、上下料、分揀,普通人來了三十分鐘就能上崗,只要對物理世界有基礎(chǔ)認知就能做。
這類場景我們認為就可以嘗試部署端到端技術(shù),用大量通用數(shù)據(jù)訓練出一個泛化性更強的基礎(chǔ)模型,再結(jié)合工廠特定場景做微調(diào)泛化,最后落地應(yīng)用。我們兩三年前就開始前瞻性布局VLA這類技術(shù),今年已經(jīng)啟動了項目POC驗證。
極客公園:目前POC項目的推進情況怎么樣?
張志琦:我們現(xiàn)在在幾個不同的場景做POC驗證。
比如物流場景的無序碼籠:就是箱體大小不一,需要把它們規(guī)整碼放到物流籠車中,供下一個環(huán)節(jié)處理。

目前我們對箱體的識別、軌跡規(guī)劃的有效處理、異常情況的人機協(xié)同處理,還沒辦法做到完全端到端,仍然需要一些兜底策略。
但我們在這個過程中也在不斷積累數(shù)據(jù),客戶也愿意和我們一起共建這個場景,我們試圖解決的問題,其實和通用機器人公司在工業(yè)領(lǐng)域攻堅的方向是一致的。
在我們看來,像無序碼籠這類任務(wù),技術(shù)難度甚至比供料還要高,因為碼放本身需要特定的策略,不是簡單把快遞翻個面就行——一般要大箱子鋪底,小箱子插縫放置。如果箱子有破損、是異形件或者易損件,還需要特殊處理,這里面大量依賴人類的經(jīng)驗,對感知和決策都提出了更高要求。
極客公園:有沒有可能未來VLA發(fā)展足夠成熟,會把所有原來專用小模型覆蓋的場景全部替代掉?
張志琦:未來技術(shù)發(fā)展很難預(yù)判,但至少最近三五年內(nèi),VLA不太可能替代技術(shù)工種場景的方案,哪怕是普工場景也很難馬上完成替代。
一個核心原因是VLA目前的精度達不到要求,就算經(jīng)過強優(yōu)化,精度大概也只能做到厘米級或者幾毫米級。但像CNC上下料這類場景,雖然屬于普工范疇,但要求誤差控制在0.1毫米以內(nèi),還不允許出錯,這種要求下VLA目前還是沒法用。
不是所有場景都需要用最大的模型,也不是所有場景都應(yīng)該被VLA覆蓋。
我們2018年開始做的,前面提到的偏自動化設(shè)備的「AI賦能智能化產(chǎn)品」,到今天仍然在產(chǎn)生收入,就是因為這些場景里,原有自動化搭配簡單AI能力就已經(jīng)能把問題解決好,那就應(yīng)該繼續(xù)做。
極客公園:如果VLA不是唯一答案,物理AI會不會是一個更大的技術(shù)框架?您怎么理解物理AI和工業(yè)具身智能的關(guān)系?
張志琦:從技術(shù)實現(xiàn)角度看,業(yè)內(nèi)說的物理AI,大概率就是指世界模型——也就是讓AI能夠理解物理空間、物理場景、物體之間的相互關(guān)系,還有基礎(chǔ)物理規(guī)則本身。
具身智能更強調(diào)機器人本體和AI模型的深度結(jié)合,而物理AI承載的內(nèi)容可能比具身智能更廣,它不一定非要綁定某一種機器人本體。未來如果世界模型足夠強大,機器人本體反而可能沒那么重要。
我們認為工業(yè)場景會是物理AI相對較早落地的方向之一,原因很簡單:工業(yè)場景里的操作對象相對有限,任務(wù)邊界也比較清晰,所以技術(shù)上更容易達到可用的狀態(tài)。
03
未來工業(yè)賽場,主流競爭者會越來越不像人形
極客公園:今年以來,微億智造的客戶情況有什么新變化?
張志琦:客戶的行業(yè)覆蓋一直在擴展,新能源汽車、3C消費電子這些原有客戶,每年都持續(xù)下單,既有原有場景的復(fù)制,也有新場景的落地。
工業(yè)場景里,客戶的信任是非常重要的:客戶原來用我們的產(chǎn)品好用,就會接著問,我們這邊新場景還有很多人工崗位,能不能換成你們的方案?我們也就跟著客戶的需求往前推進。
今年讓我們比較欣喜的是,海外業(yè)務(wù)也開始從0到1突破了。未來兩三年,我們希望海外收入能占到總營收的20%到30%。一方面,我們可以把國內(nèi)打磨成熟的產(chǎn)品通過海外渠道快速推出去;另一方面,海外也有自己的獨特需求——有些項目在國內(nèi)算不過來ROI,在海外可能就能達標。
極客公園:下一步在技術(shù)能力上,你們更關(guān)注哪些方向?
張志琦:下一步重點是把觸覺能力徹底打通?,F(xiàn)在很多項目我們不敢碰,核心瓶頸就是觸覺。比如插拔、理線這類任務(wù),都非常依賴觸覺反饋。
但目前觸覺技術(shù)的發(fā)展遠落后于視覺,把觸覺融入系統(tǒng)后,整個模型都會發(fā)生很大變化,甚至不一定是基于語言模型的架構(gòu)。
我們的判斷是:加入觸覺模型后,視覺仍然會發(fā)揮重要作用。純觸覺能完成的任務(wù)很少,但和視覺判斷結(jié)合后,能處理的任務(wù)會大幅增加。
從去年開始,我們已經(jīng)啟動了觸覺方向的前沿研究,核心是做觸覺模型和視覺模型的深度融合,目前同時在看兩條技術(shù)路線:霍爾觸覺和視觸覺。
極客公園:未來三年,你覺得工業(yè)具身智能哪些細分賽道會迎來爆發(fā)?
張志琦:工廠里人工密集的崗位都有機會。哪怕具身智能相關(guān)收入每年翻番,我也不覺得接近天花板了,技術(shù)還需要持續(xù)提升。
但我覺得現(xiàn)在離真正的大規(guī)模爆發(fā)還很遠,如果真的算爆發(fā),那應(yīng)該是工廠里的用工數(shù)量明顯下降,哪怕減少五分之四還能正常生產(chǎn),那才算真的爆發(fā)。
過去工廠很多時候是把人當機器用:質(zhì)檢崗位非常傷眼睛,年輕姑娘在強光下看兩年產(chǎn)品,視力可能就會出問題;拆碼垛這類重體力活,對工人的腰和身體都會造成不可逆的損傷,這些崗位都應(yīng)該優(yōu)先被替代。
極客公園:未來的行業(yè)競爭中,傳統(tǒng)工業(yè)機械臂公司、微億這樣的工業(yè)具身智能公司,還有追求泛化AGI的人形具身智能公司,各自的優(yōu)勢和短板是什么?
張志琦:我們的優(yōu)勢還是對工業(yè)場景的深度理解。很多公司說「我也能做」,那不妨來現(xiàn)場試試。具身智能有意思的地方就在于,是不是好用拉出來遛遛就知道,客戶愿不愿意買單是最直觀的檢驗。
在ROI可算得過來的前提下能不能完成任務(wù),這是工業(yè)落地最基本的第一性原理。
現(xiàn)在我們的競爭對手很多還是傳統(tǒng)自動化公司,說實話,自動化公司里也有不少能工巧匠,可以設(shè)計出特殊的結(jié)構(gòu)構(gòu)型,滿足柔性生產(chǎn)的需求。
但從中長期看,未來主流的競爭對手大概率會是那些做得越來越不像人的人形機器人公司。
對追求AGI的具身智能公司來說,估值核心還是生活場景,但生活場景落地太難了,走著走著就會轉(zhuǎn)向工業(yè)場景,轉(zhuǎn)過來又發(fā)現(xiàn)純?nèi)诵尾皇沁m合工業(yè)的架構(gòu),于是開始做泛人形。但泛人形在生活場景里又會遇到新的問題。
這兩年人形機器人公司已經(jīng)開始改口,說自己的產(chǎn)品是泛人形,泛人形的問題是還要沾著「人形」的邊,因為有人形公司的敘事包袱,還得加個頭部,你說和傳統(tǒng)機械臂組合有什么差異?其實沒什么差異。
我覺得這些都是最早堅持全人形結(jié)構(gòu)的時候,大家講給投資人聽的故事,到今天實際落地,大家都發(fā)現(xiàn)全人形有成本問題:多一個關(guān)節(jié)、多一個自由度,對算力的要求就會高很多,一個全身四五十個自由度的機器人,需要多少算力才能流暢完成任務(wù)?
回到工廠場景,說到底,工廠在意的就是能不能解決問題,其他都是其次。
極客公園:只聚焦工業(yè)場景,外界會不會擔心你們在一個個項目交付里分散精力,沒有足夠的技術(shù)力量沖擊更高的技術(shù)目標?
張志琦:這個擔心其實多余了。現(xiàn)在在AI技術(shù)研發(fā)投入上,微億和國內(nèi)絕大多數(shù)AI公司的投入強度是差不多的,我們不是以項目交付為核心,而是以研發(fā)為核心驅(qū)動力。
我們這一代AI公司和上一代AI公司最大的區(qū)別是:物理AI的世界里一定需要一個實體載體,有載體就會有和物理世界的交互,就會有反饋機制,產(chǎn)生新的訓練數(shù)據(jù),所以也一定會有一批新公司跑出來。
極客公園:你覺得現(xiàn)在市場宣傳或者投資人敘事里,最不靠譜的說法是什么?
張志琦:以前只要放出一個機械本體、拼出一個人形外觀,大家就覺得這家公司能做人形機器人了。到今天,二級市場這類公司也很多,但再只放一個人形外觀,大家已經(jīng)不信了。
過去很多Demo演示背后其實是人工遙操作,大家之前并不了解,現(xiàn)在慢慢明白,有些機器人是自主運行,有些還是遙操作。這個變化的核心,是市場越來越認識到AI才是核心,也看清有些公司其實只做了運動控制,并沒有做機器人的AI大腦。
所以對我們來說,過去可能吃了外觀的虧——看起來就是傳統(tǒng)機械臂,但現(xiàn)在我們更希望大家理解,有沒有AI大腦的機械臂,差別其實非常大。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com






