近期,科技界迎來了一項關于人工智能的新突破。英偉達公司推出了一款名為Cosmos-Reason1的系列模型,該模型專注于物理推理任務,旨在提升AI在物理常識和具身推理方面的能力,為機器人技術和自動駕駛車輛等領域帶來了實際應用的廣闊前景。
長久以來,人工智能在語言處理、數學計算和代碼生成方面取得了顯著成就,但將其功能擴展到物理環境中卻是一個棘手的問題。Physical AI,即物理AI,不同于傳統的AI技術,它依賴于視頻等感官輸入,并結合現實世界的物理法則來生成反應。這類AI需要執行導航、操作和交互等任務,這就要求它具備常識推理以及對空間、時間和物理規律的深刻理解。
然而,當前的AI模型在連接物理世界方面存在明顯的不足。它們難以直觀理解重力或空間關系,導致在具身任務中的表現不盡如人意。直接在物理世界中訓練AI不僅成本高昂,而且風險巨大,這極大地阻礙了開發進程。
為了應對這一挑戰,英偉達推出了Cosmos-Reason1系列模型。該模型包括Cosmos-Reason1-7B和Cosmos-Reason1-56B兩個版本,通過Physical AI的監督微調(SFT)和強化學習(RL)兩個階段進行訓練。這一創新性的方法為物理推理提供了新的解決方案。
研究團隊引入了雙本體系統來增強模型的能力。一個分層本體將物理常識劃分為空間、時間和基礎物理三大類,并進一步細化為16個子類。另一個二維本體則映射了人類、機械臂、人形機器人等五種具身代理的推理能力。這種設計使得模型能夠更好地理解和處理物理世界中的復雜情況。
Cosmos-Reason1模型采用了僅解碼器的大型語言模型(LLM)架構,并結合視覺編碼器來處理視頻數據。這使得模型能夠同步推理文本和視覺數據,從而提高了其在物理推理任務中的表現。訓練數據集包含了約400萬條標注的視頻-文本對,涵蓋了動作描述和復雜推理任務。
為了評估Cosmos-Reason1模型的性能,研究團隊構建了針對物理常識的三個基準和針對具身推理的六個基準。這些基準測試包含了604個問題、426個視頻以及610個問題、600個視頻,分別用于評估模型在物理常識和具身推理方面的能力。
實驗結果表明,Cosmos-Reason1模型在物理常識和具身推理基準測試中均表現出色。特別是在經過RL訓練后,模型在預測下一步行動、驗證任務完成和評估物理可行性等方面取得了顯著進步。這一突破為物理AI的發展注入了新的活力。