meta公司近期揭曉了其人工智能領(lǐng)域的最新突破——V-JEPA 2模型,這一創(chuàng)新成果被定位為“世界模型”,旨在賦能AI智能體,讓它們更好地理解并適應(yīng)周遭的物理世界。
V-JEPA 2作為meta去年推出的V-JEPA模型的升級版,其訓(xùn)練素材涵蓋了超過百萬小時的視頻數(shù)據(jù)。這些豐富的數(shù)據(jù)資源,旨在模擬并教授AI智能體,如機器人等,在真實物理環(huán)境中的運作邏輯,讓它們能夠理解和預(yù)測諸如重力等自然現(xiàn)象對事件演變的影響。
值得注意的是,V-JEPA 2所具備的這種能力,與兒童和動物在成長過程中逐漸形成的常識性認(rèn)知有著異曲同工之妙。比如,在與人類進行接球游戲時,狗狗能夠本能地判斷球落地后的反彈軌跡,并準(zhǔn)確跑向球可能落點的位置,而非球當(dāng)前的位置。
meta通過實例進一步闡釋了V-JEPA 2的應(yīng)用場景。設(shè)想一個場景,機器人手持盤子和鍋鏟,走向裝有熟雞蛋的爐灶。借助V-JEPA 2的預(yù)測能力,AI能夠迅速判斷出,接下來最合理的動作是用鍋鏟將雞蛋移至盤子中。
在性能表現(xiàn)上,meta聲稱V-JEPA 2的運行速度相較于Nvidia的Cosmos模型快了30倍。盡管兩者都致力于提升AI在物理世界中的智能水平,但可能采用了不同的評估基準(zhǔn)來衡量各自模型的效能。
meta首席人工智能科學(xué)家Yann LeCun在一則視頻中表達(dá)了對于V-JEPA 2的樂觀態(tài)度:“我們堅信,世界模型將引領(lǐng)機器人技術(shù)進入一個嶄新的時代。這意味著,AI智能體將能夠在現(xiàn)實世界中,無需依賴龐大的機器人訓(xùn)練數(shù)據(jù)集,就能有效地協(xié)助人類完成日常家務(wù)和各種體力勞動。”