要聞

智元發(fā)布首個(gè)通用具身基座大模型：完成小樣本快速泛化，降低具身智能門(mén)檻

每日經(jīng)濟(jì)新聞 2025-03-10 12:50:25

每經(jīng)記者｜朱成祥每經(jīng)編輯｜文多

3月10日，智元發(fā)布首個(gè)通用具身基座大模型——智元啟元大模型（GO-1）。據(jù)了解，該架構(gòu)由VLM（多模態(tài)大模型）+MoE（混合專(zhuān)家）組成。其中VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場(chǎng)景感知和語(yǔ)言理解能力，MoE中的Latent Planner（隱式規(guī)劃器）借助大量跨本體和人類(lèi)操作數(shù)據(jù)獲得通用的動(dòng)作理解能力，MoE中的Action Expert（動(dòng)作專(zhuān)家）借助百萬(wàn)真機(jī)數(shù)據(jù)獲得精細(xì)的動(dòng)作執(zhí)行能力。三者環(huán)環(huán)相扣，可以利用人類(lèi)視頻學(xué)習(xí)、完成小樣本快速泛化并且降低具身智能門(mén)檻。其已成功部署到智元多款機(jī)器人本體，而且還會(huì)持續(xù)進(jìn)化，將具身智能推上一個(gè)新臺(tái)階。

對(duì)于多模態(tài)大模型與混合專(zhuān)家大模型的具體分工，智元具身研究中心常務(wù)主任任廣輝回復(fù)《每日經(jīng)濟(jì)新聞》記者問(wèn)題時(shí)表示：“我們多模態(tài)大模型本身，自帶了一個(gè)專(zhuān)家。Latent Planner負(fù)責(zé)我們互聯(lián)網(wǎng)規(guī)模的圖文錄像訓(xùn)練，它來(lái)理解視頻中的動(dòng)作，比如倒水這個(gè)動(dòng)作，肯定需要手腕旋轉(zhuǎn)。而Action Expert（動(dòng)作專(zhuān)家），則是在看了很多理論，看了很多視頻動(dòng)作后，負(fù)責(zé)在機(jī)器人本體（上的）執(zhí)行。”

任廣輝補(bǔ)充表示：“各個(gè)模型分工明確，各司其職，并且是分層的。就如人類(lèi)學(xué)東西一樣，先學(xué)理論，再看別人如何操作，再自己操作。這樣分層次（學(xué)習(xí)），也令整個(gè)學(xué)習(xí)、訓(xùn)練相對(duì)而言更容易一點(diǎn)。”

封面圖片來(lái)源：每經(jīng)記者張建攝（資料圖）

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。