英偉達(dá)近期在視覺-語言模型領(lǐng)域取得了重大突破,推出了一款名為Eagle 2.5的新型模型。這款模型專注于長上下文多模態(tài)學(xué)習(xí),特別擅長處理大規(guī)模視頻和圖像。
Eagle 2.5盡管參數(shù)規(guī)模僅為8B,但在Video-MME基準(zhǔn)測試中展現(xiàn)出了驚人的性能。在處理512幀輸入的測試中,它獲得了72.4%的高分,這一成績足以媲美規(guī)模更大的模型,如Qwen2.5-VL-72B和InternVL2.5-78B。這一成績的背后,離不開英偉達(dá)在模型訓(xùn)練策略上的創(chuàng)新。
為了提升模型的性能,英偉達(dá)采用了兩項關(guān)鍵訓(xùn)練策略:信息優(yōu)先采樣和漸進式后訓(xùn)練。信息優(yōu)先采樣技術(shù)通過圖像區(qū)域保留和自動降級采樣,確保了原始圖像區(qū)域的完整性和視覺細(xì)節(jié)的優(yōu)化。同時,漸進式后訓(xùn)練策略通過逐步擴展模型上下文窗口,讓模型在不同輸入長度下都能保持穩(wěn)定性能,避免了過擬合單一上下文范圍的問題。
Eagle 2.5的訓(xùn)練數(shù)據(jù)管道也經(jīng)過了精心設(shè)計。英偉達(dá)整合了開源資源和定制數(shù)據(jù)集Eagle-Video-110K,該數(shù)據(jù)集專為理解長視頻設(shè)計,采用了雙重標(biāo)注方式。通過自上而下的故事級分割和自下而上的問答對生成,數(shù)據(jù)集在強調(diào)多樣性的同時,確保了敘事連貫性和細(xì)粒度標(biāo)注,為模型在高幀數(shù)任務(wù)中的表現(xiàn)提供了有力支持。
在性能表現(xiàn)方面,Eagle 2.5-8B在多項視頻和圖像理解任務(wù)中都展現(xiàn)出了卓越的性能。在視頻基準(zhǔn)測試中,它在MVBench、MLVU和LongVideoBench上分別獲得了74.8、77.6和66.4的高分。在圖像基準(zhǔn)測試中,它在DocVQA、ChartQA和InfoVQA上也分別取得了94.1、87.5和80.4的優(yōu)異成績。這些成績充分證明了Eagle 2.5在視覺-語言模型領(lǐng)域的領(lǐng)先地位。
為了進一步驗證模型的有效性,英偉達(dá)還進行了消融研究。研究結(jié)果表明,移除信息優(yōu)先采樣和自動降級采樣技術(shù)會導(dǎo)致模型性能下降。而加入漸進式訓(xùn)練和Eagle-Video-110K數(shù)據(jù)集則能帶來更穩(wěn)定的性能提升。這一結(jié)果進一步證明了英偉達(dá)在模型訓(xùn)練策略和數(shù)據(jù)集設(shè)計上的正確性。