meta近日震撼發(fā)布了其最新的開源世界模型V-JEPA 2,這一突破性進(jìn)展標(biāo)志著AI在物理世界的理解與預(yù)測(cè)能力邁上了新臺(tái)階。據(jù)悉,該模型顯著提升了AI agents的物理推理能力,使其更加智能且高效。
meta的副總裁兼首席AI科學(xué)家楊立昆在官方視頻中透露,世界模型的引入讓AI無需再經(jīng)過數(shù)百萬次的訓(xùn)練即可掌握新技能。這一模型直接揭示了世界的運(yùn)作機(jī)制,從而極大地提高了學(xué)習(xí)效率。例如,AI現(xiàn)在能預(yù)測(cè)人類舀出一勺東西后將其放入另一個(gè)容器的動(dòng)作,甚至能理解并拆解復(fù)雜的跳水動(dòng)作。
據(jù)meta的測(cè)試數(shù)據(jù)顯示,V-JEPA 2在測(cè)試任務(wù)中的規(guī)劃用時(shí)僅為英偉達(dá)Cosmos模型的三十分之一,同時(shí)成功率更高。這一顯著成果得益于V-JEPA 2使用超過一百多萬小時(shí)的視頻進(jìn)行自監(jiān)督學(xué)習(xí)訓(xùn)練。通過這一方式,模型學(xué)習(xí)到了物理世界中的重要規(guī)律,包括人類與物體的互動(dòng)方式、物體的運(yùn)動(dòng)方式以及物體間的相互作用。
meta強(qiáng)調(diào),物理推理能力對(duì)于構(gòu)建在現(xiàn)實(shí)世界中運(yùn)作的AI agents至關(guān)重要,是實(shí)現(xiàn)高級(jí)機(jī)器智能(AMI)的關(guān)鍵。通過世界模型,AI agents能夠“三思而后行”,即在實(shí)際行動(dòng)之前進(jìn)行充分的理解和規(guī)劃。例如,在機(jī)械臂上部署V-JEPA 2模型,使其能夠執(zhí)行物體操作類任務(wù),如觸碰、抓取和擺放物體,而無需大量機(jī)器人數(shù)據(jù)或針對(duì)性訓(xùn)練。
meta還發(fā)布了三個(gè)新的基準(zhǔn)測(cè)試,旨在評(píng)估現(xiàn)有模型通過視頻學(xué)習(xí)和推理物理世界的能力。這些基準(zhǔn)測(cè)試包括IntPhys 2、Shortcut-aware Video-QA Benchmark和CausalVQA,它們分別測(cè)試了模型在復(fù)雜合成環(huán)境中的物理理解能力、基于最小視頻對(duì)的物理理解視頻問答能力以及物理基礎(chǔ)因果推理能力。
此次V-JEPA 2的發(fā)布正值meta在AI領(lǐng)域大動(dòng)作頻頻之際。就在前一天,meta宣布將成立新的AI實(shí)驗(yàn)室,并豪擲148億美元收購Scale AI 49%的股份。這一系列舉措無疑彰顯了meta在AI領(lǐng)域的雄心壯志。通過世界模型的引入和基準(zhǔn)測(cè)試的發(fā)布,meta正努力推動(dòng)AI從數(shù)字世界加速走向物理世界,開啟AI技術(shù)競爭的新篇章。