智快網 - 新科技與新能源行業網絡媒體

          月之暗面Kimi發布Moonlight模型:參數高達30億至160億,性能大幅提升

             發布時間:2025-02-24 09:12 作者:蘇婉清

          近期,人工智能領域迎來了一項引人注目的技術創新。知名技術團隊月之暗面Kimi發布了一項關于Muon優化器的新技術報告,并隨之推出了名為“Moonlight”的混合專家模型(MoE)。這款模型在Muon優化器的基礎上進行了訓練,擁有30億至160億不等的參數規模。

          Moonlight模型在訓練過程中采用了5.7萬億個token的數據量,并且在減少浮點運算次數(FLOPs)的同時,實現了卓越的性能表現。這一成果不僅提升了帕累托效率邊界,更為大規模的語言模型訓練提供了新的思路。

          月之暗面團隊表示,Muon優化器通過引入權重衰減和精細調整每個參數更新幅度的技術,實現了在大規模訓練中的高效應用。這些創新技術使得Muon優化器無需繁瑣的超參數調優,即可直接應用于實際訓練任務。

          據團隊介紹,在擴展法則實驗中,Muon優化器相較于計算最優訓練的AdamW優化器,實現了約2倍的計算效率提升。這一顯著優勢使得Muon優化器在處理大規模數據集時更加得心應手。

          本次發布的Moonlight模型采用了名為Moonlight-16B-A3B的具體配置,總參數量達到15.29B,其中激活參數為2.24B。在5.7T token的訓練數據支持下,Moonlight模型展現出了卓越的性能表現,不僅突破了當前的Pareto前沿,還在大幅減少FLOPs的情況下實現了比以往模型更優的性能。

          為了方便其他研究人員和開發者利用這一創新成果,月之暗面團隊還開源了一個分布式版本的Muon實現。該實現在內存使用和通信效率上都進行了優化,旨在提高整體性能和易用性。團隊還發布了預訓練模型、經過指令調優的模型以及中間訓練檢查點,為未來的研究工作提供了有力支持。

          對于對這項技術感興趣的研究人員和開發者來說,可以通過訪問GitHub和Hugging Face平臺,獲取更多關于Moonlight模型和Muon優化器的詳細信息。

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          亚洲精品乱码久久久久久自慰| 日韩GAY小鲜肉啪啪18禁| 99久久精品国产亚洲| 亚洲精品高清无码视频| 亚洲äv永久无码精品天堂久久| 国产手机精品视频| 国产精品av一区二区三区不卡蜜| 国产成人精品综合网站| 久久99精品久久久久久久久久| 久久精品国产半推半就| 日韩精品在线观看| 久久亚洲国产精品123区| 国产va免费精品| 国内揄拍国内精品| 国产精品无码永久免费888| 精品400部自拍视频在线播放| 亚洲av日韩av不卡在线观看| 日韩精品亚洲专区在线观看| 国产麻豆剧传媒精品国产免费| 精品国产柚木在线观看| 国产成人精品日本亚洲语音| 精品麻豆国产色欲色欲色欲www| 亚洲欧美综合精品成人导航| 999国内精品永久免费观看| 精品一区精品二区制服| 久久久久国产精品人妻| 精品一区二区三区四区在线播放| 911精品国产亚洲日本美国韩国| 久久精品国产亚洲AV电影| 精品永久久福利一区二区| 97麻豆精品国产自产在线观看| 久久精品99久久香蕉国产色戒 | 日韩人妻无码精品久久久不卡 | 亚洲av日韩av无码| 国产日韩一区二区三免费高清 | 国产乱人伦偷精品视频| 国产VA免费精品高清在线| 无码日韩AV一区二区三区| 日韩经典精品无码一区| 精品无码成人片一区二区| 在线视频一区二区日韩国产|