智快網 - 新科技與新能源行業網絡媒體

          Meta攜手伯克利推出SWEET-RL框架,AI多輪協作能力大幅提升

             發布時間:2025-03-24 11:18 作者:朱天宇

          近日,科技界迎來了一項新的突破,meta AI與加州大學伯克利分校攜手推出了一個名為SWEET-RL的強化學習框架,并配套發布了CollaborativeAgentBench(簡稱ColBench)基準測試。這一合作旨在提升大語言模型(LLMs)在多輪人機協作任務中的性能,特別是在后端編程和前端設計兩大領域。

          隨著大語言模型的發展,它們逐漸展現出執行復雜任務的潛力,但在多輪決策任務中仍面臨諸多挑戰。傳統的訓練方法主要依賴于單輪反饋或模仿高概率行為,這種方法在處理長期依賴和累積目標時顯得力不從心,導致模型在協作場景中表現平平,特別是在理解人類意圖和多步驟推理方面。

          SWEET-RL框架的推出,正是為了解決這一難題。它采用了非對稱的“演員-評論家”結構,其中評論家在訓練過程中能夠訪問額外信息(如正確答案),從而更準確地評估演員的決策。這一創新不僅簡化了信用分配過程,還與LLMs的預訓練架構實現了更好的對齊。

          實驗結果顯示,SWEET-RL在后端編程任務中的通過率顯著提升至48.0%,在前端設計任務中的余弦相似度也達到了76.9%,這一成績顯著優于其他多輪強化學習方法。這一突破性的進展,無疑為LLMs在多輪人機協作任務中的應用開辟了新的道路。

          為了更全面地評估SWEET-RL的性能,meta AI和加州大學伯克利分校還推出了ColBench基準測試。ColBench包含了超過10000個訓練任務和1000個測試案例,這些任務設計均模擬了真實的人機協作場景,涵蓋了后端編程(如Python函數編寫)和前端設計(如HTML代碼生成)兩大領域。該基準測試還限制了每輪交互的次數,最多不超過10次。

          ColBench基準測試通過單元測試通過率和余弦相似度兩個指標來評估模型的性能,為多輪任務提供了可靠的評估標準。這一測試平臺的推出,不僅有助于研究人員更準確地評估SWEET-RL的性能,也為未來LLMs在多輪人機協作任務中的發展提供了有力的支持。

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          国产成人精品高清在线观看93| 国产乱子伦精品无码专区| 国产福利视精品永久免费| 国产美女精品一区二区三区| 国产伦精品一区二区三区视频金莲| 日韩免费高清视频| 国产suv精品一区二区6| 国内精品videofree720| 亚洲av永久中文无码精品综合| 精品人妻无码区二区三区| 久久成人国产精品| 99国产精品热久久久久久夜夜嗨 | 成人午夜视频精品一区| 亚洲?V乱码久久精品蜜桃 | 国产精品VA在线观看无码不卡| 国产亚洲精品无码拍拍拍色欲| 国产2021久久精品| 伊人久久无码精品中文字幕| 中文字幕一区日韩精品| 亚洲国产日韩视频观看| 日韩精品无码一区二区三区AV | 热99re久久免费视精品频软件| 精品无码综合一区二区三区| 中文无码精品A∨在线观看不卡| 91成人午夜在线精品| 国产精品午夜剧场| 999久久久无码国产精品| 国产精品影音先锋| 国产精品亚洲自在线播放页码| 日日夜夜精品视频| 亚洲日韩精品无码专区加勒比☆| 午夜精品久久久久| 亚洲精品久久无码| 精品麻豆国产色欲色欲色欲www| 精品国偷自产在线视频99| 思思久久96热在精品国产| 色综合久久精品亚洲国产| 青青草国产精品视频| 国产精品电影一区二区三区| 国产精品无码一二区免费 | 亚洲国产成人久久精品99|