智快網 - 新科技與新能源行業(yè)網絡媒體

          字節(jié)跳動VAPO框架刷新AIME24記錄,大型語言模型推理能力大幅提升

             發(fā)布時間:2025-04-12 15:05 作者:蘇婉清

          近日,字節(jié)跳動旗下的Seed研究團隊宣布了一項重大技術突破,推出了名為VAPO的強化學習訓練框架。這一框架的主要目標是增強大型語言模型在處理復雜且冗長任務時的推理能力。

          在大型語言模型的強化學習訓練中,價值導向方法一直備受關注,因為它們能夠精確地追蹤每個動作對后續(xù)回報的影響。然而,當這種方法應用于長鏈式推理任務時,卻面臨著一系列挑戰(zhàn)。價值模型在初始化階段可能會引入偏差,傳統方法難以適應復雜任務中不同長度的序列,而且在驗證任務中,獎勵信號往往非常稀疏,導致優(yōu)化過程需要在探索和利用之間做出艱難權衡。

          為了應對這些挑戰(zhàn),字節(jié)跳動推出了VAPO框架,全稱為增強價值的近端政策優(yōu)化。該框架基于PPO框架,并融入了三項創(chuàng)新技術。首先,VAPO構建了一個精細的價值訓練框架,以提高模型對復雜任務的理解能力。其次,它引入了長度自適應廣義優(yōu)勢估計機制,能夠根據響應長度的不同動態(tài)調整參數,從而優(yōu)化長短序列的訓練效果。最后,VAPO整合了多項先前的研究成果,形成了一個協同增效的系統。

          據字節(jié)跳動透露,在沒有依賴特定監(jiān)督微調數據的情況下,通過VAPO優(yōu)化的Qwen2.5-32B模型在AIME24基準測試中取得了顯著進步。其得分從5分大幅提升至60.4分,不僅超過了DeepSeek R1的47分,還領先此前業(yè)界領先的DAPO方法10分,并且只用了60%的更新步驟就達到了這一成績。

          與傳統的Proximal Policy Optimization算法相比,VAPO在數學推理能力上有了顯著提升,訓練曲線更加平滑,優(yōu)化過程也更加穩(wěn)定。測試結果顯示,VAPO在長序列任務中表現出色,得分增長迅速。盡管在后期訓練中,由于熵值降低可能會限制探索能力,但VAPO通過其平衡設計確保了穩(wěn)定性和可重復性。

          VAPO的成功離不開其綜合優(yōu)化設計。消融研究表明,VAPO中的七項技術均發(fā)揮了重要作用。價值預訓練有效防止了訓練過程中的崩潰現象,解耦GAE支持了長回答的優(yōu)化,自適應GAE平衡了短回答和長回答的訓練效果,剪裁策略鼓勵了探索,詞級損失增加了長回答的權重,正例語言模型損失提升了6分,分組采樣則貢獻了5分。

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          国产精品黄页免费高清在线观看| 国产成人久久精品亚洲小说| 国产亚洲精品观看91在线| 黄大色黄美女精品大毛片| 日韩无码系列综合区| 国模精品一区二区三区视频| 国产精品合集一区二区三区| 久久精品亚洲精品国产色婷| 久久国内精品自在自线400部o| 国产丝袜在线精品丝袜| 久久精品国产色蜜蜜麻豆| 国产成人久久精品二区三区| 日韩不卡高清视频| 1024日韩看片四虎紧急入口| 日韩a毛片免费观看| 国产精品午夜无码av体验区| 337P日本欧洲亚洲大胆精品| 国产精品一区在线麻豆| 久久机热这里只有精品无需| 亚洲精品视频免费看| 亚洲国产综合精品| 久久精品国产日本波多野结衣| 69国产成人精品视频软件| 91精品国产免费久久国语麻豆| 99无码精品二区在线视频 | 国美女福利视频午夜精品| 亚洲精品在线免费观看视频| 18精品久久久无码午夜福利| 2021国产精品自在拍在线播放| 3d动漫精品一区视频在线观看| 久久精品亚洲一区二区三区浴池| 久久精品国产亚洲av高清漫画| 精品无人区一区二区三区| 久久精品国产亚洲av麻豆小说| 91一区二区在线观看精品| 亚洲国产精品综合久久2007| 国产92成人精品视频免费| 92国产精品午夜福利| 国产99久久久国产精品小说| 日产精品卡一卡二卡三的概述| 国产欧美精品123区发布 |