據悉,GO-2首次在統一架構中打通從邏輯推理到精準動作執行的“最后一公里”,結合數萬小時的數據訓練,在多個機器人基準測試中刷新行業SOTA,讓機器人從“黑盒摸索”邁向真正的 “知行合一”。

圖片來源:智元機器人
一年前,智元發布了Genie Operator-1(簡稱GO-1)基座模型,通過創新的ViLLA架構,首次實現了視覺-語言-動作的統一建模。
GO-1 讓機器人學會了“理解”。它能看懂指令,能識別場景,能規劃任務。
然而,當系統進入更加復雜的真實環境后,一個關鍵問題逐漸顯現:機器人雖然能生成合理的規劃,但動作并不總能嚴格按照規劃執行。
在傳統具身模型中,鏈路往往是割裂的:高層語義推理 → 抽象指令 → 控制系統 → 機器人動作。高層模型輸出的抽象信號,與真實世界所需的精細動作之間,仍隔著巨大落差。到了執行環節,控制模塊常常繞過規劃、直接依賴瞬時視覺生成動作,最終導致:長程任務誤差不斷累積、動作持續偏離規劃、系統整體穩定性大幅下降。
而新一代基座模型 GO?2 要做的,正是彌合這道鴻溝。GO?2 的目標清晰而堅定:讓機器人不只理解世界,更能穩定、可靠地作用于世界。
從 GO?1 到 GO?2,智元完成了一次從能力到價值的關鍵躍遷:從 “理解世界”,走向真正作用于世界;從 “偶爾成功”,走向持續穩定完成;從 “單純完成動作”,走向在物理世界中精準交互、穩定落地。
GO?2 基座模型所做的,正是為具身智能打造真正會思考、可信賴、能落地的通用大腦,打破語義與動作的割裂,讓規劃與執行真正合一,讓機器人的每一個動作,都能適配物理世界的復雜變量、穩定作用于真實場景。