智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡媒體

          智源發(fā)布Emu3:原生多模態(tài)世界模型,能否一統(tǒng)圖像文本視頻?

             發(fā)布時間:2024-10-22 07:21 作者:趙云飛

          智源研究院近期推出了全新的原生多模態(tài)世界模型——Emu3,該模型在文本、圖像和視頻三種模態(tài)數(shù)據(jù)的理解和生成上展現(xiàn)出卓越能力。其獨特之處在于,僅需基于下一個token預測,無需依賴擴散模型或組合方法,便能實現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一處理。

          在圖像生成任務中,Emu3的表現(xiàn)優(yōu)于SD-1.5與SDXL模型,獲得了人類偏好評測的高度認可。同時,在視覺語言理解任務中,Emu3也展現(xiàn)出了強大的實力,其對于12項基準測試的平均得分超越了LlaVA-1.6。在視頻生成任務中,Emu3同樣表現(xiàn)出色,VBench基準測試得分高于OpenSora 1.2。

          Emu3配備了一個強大的視覺tokenizer,能夠?qū)⒁曨l和圖像轉(zhuǎn)換為離散token,這些token可以與文本tokenizer輸出的離散token一同送入模型中。這一特性為Any-to-Any任務提供了更加統(tǒng)一的研究范式。

          Emu3的研究結(jié)果充分證明了下一個token預測作為多模態(tài)模型范式的強大潛力,它不僅能實現(xiàn)超越語言本身的大規(guī)模多模態(tài)學習,還能在多模態(tài)任務中取得先進性能。目前,Emu3已開源關鍵技術和模型,為相關研究提供了有力支持。

           
           
          更多>同類內(nèi)容
          全站最新
          熱門內(nèi)容
          本欄最新
           
          智快科技微信賬號
          ITBear微信賬號

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數(shù)碼群

          亚洲综合精品网站| 青春草无码精品视频在线观| 精品国产午夜理论片不卡| 久久精品国产一区二区三区肥胖| 久久久久无码国产精品不卡| 青草国产精品视频。| 中日韩无砖码一线二线| 国产精品久久二区二区| 精品国产不卡在线电影| 亚洲国产精品无码久久98 | 99视频精品全部在线| 九九热在线精品视频| 91久久精品91久久性色| 精品久久久久久国产牛牛app| 日韩福利视频精品专区| 久久精品日韩一区国产二区| 日韩精品无码人成视频手机 | 亚洲日韩欧洲无码av夜夜摸 | 久久综合精品视频| 亚洲动漫精品无码av天堂| 国产午夜精品理论片久久影视| 在线观看亚洲精品福利片 | 国内精品在线视频| 国产成人精品综合久久久久| 拍真实国产伦偷精品| 成人精品视频一区二区三区不卡| 久久久久人妻一区精品| 中文精品久久久久人妻| 中文字幕精品无码一区二区三区| 中文精品久久久久人妻不卡| 亚洲欧洲国产精品香蕉网| 精品九九久久国内精品| 国产精品涩涩涩视频网站| 久久精品视频免费播放| 久久99国产这里有精品视| 亚洲精品视频在线| 99久久er热在这里只有精品99| 91亚洲国产成人精品下载| 国产成人精品日本亚洲网址| 97香蕉久久夜色精品国产| 国产精品视频在线观看|