智快網 - 新科技與新能源行業網絡媒體

          Anthropic“憲法分類器”能否有效管住大型語言模型的“嘴”?

             發布時間:2025-02-05 12:01 作者:顧雨柔

          近日,人工智能領域迎來了一項新的安全創新。為了應對人工智能工具濫用自然語言提示的問題,OpenAI的競爭對手Anthropic推出了一項名為“憲法分類器”的全新概念。這一創新方法旨在將一套類似人類價值觀的規則(形象地比喻為一部“憲法”)嵌入大型語言模型中。

          據悉,Anthropic的安全保障研究團隊在一篇最新的學術論文中詳細闡述了這一安全措施。該措施的主要目標是減少其最新、最先進的大型語言模型Claude 3.5 Sonnet的“越獄”行為,即生成超出既定安全防護范圍的輸出內容。實驗結果顯示,在實施憲法分類器后,Claude模型的越獄成功率顯著降低了81.6%,而該系統對模型性能的影響微乎其微,生產流量拒絕率僅絕對增加了0.38%,推理開銷增加了23.7%。

          隨著大型語言模型的應用日益廣泛,生成有害內容的風險也日益凸顯。Anthropic及其同行如OpenAI等,對化學、生物、放射和核(CBRN)相關內容的風險尤為關注。例如,這些模型可能會提供制造有害化學制劑的指導。為了驗證憲法分類器的有效性,Anthropic發起了一項挑戰,邀請用戶嘗試突破8個與CBRN內容相關的越獄關卡。然而,這一舉措也引發了一些爭議,有批評者認為這是在利用社區資源為閉源模型的安全測試做貢獻。

          針對這些爭議,Anthropic進行了解釋。他們指出,成功的越獄行為是繞過了憲法分類器,而非直接規避。他們列舉了兩種常見的越獄方法:一種是良性釋義,即通過改變表述方式繞過敏感內容;另一種是長度利用,即通過添加無關細節來迷惑模型。同時,Anthropic也承認,在測試期間,一些提示因誤報或漏報而被錯誤地拒絕,拒絕率較高。

          Anthropic進一步補充說,盡管已知對沒有憲法分類器的模型有效的越獄方法在這一防御措施下并未成功,但他們仍在不斷改進和完善這一系統。他們認識到,基于規則的測試系統存在局限性,并致力于提高系統的準確性和可靠性。這一創新不僅為大型語言模型的安全性提供了新的解決方案,也為人工智能領域的未來發展開辟了新的方向。

           
           
          更多>同類內容
          全站最新
          熱門內容
          本欄最新
           
          智快科技微信賬號
          微信群

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數碼群

          A级精品国产片在线观看| 日韩在线一区二区三区免费视频 | 无码人妻精品一区二区三区99仓本 | 亚洲精品色午夜无码专区日韩| 亚洲精品线路一在线观看| 亚洲日韩精品无码AV海量| 国产精品va无码免费麻豆| 青青青国产精品视频| 亚洲国产精品无码观看久久| 国产精品久久免费| 精品国产品国语在线不卡| 久久久久99精品成人片试看| 久久久久久影院久久久久免费精品国产小说 | 精品国偷自产在线不卡短视频| 六月婷婷精品视频在线观看| 国产精品美女久久久久av超清| 国产日产欧产精品精品浪潮| 在线欧美精品一区二区三区| 久久久这里有精品| 国产精品久久久久久麻豆一区| 国产福利微拍精品一区二区| 精品欧洲av无码一区二区| 亚洲国产精品久久久久秋霞影院| 精品无码国产污污污免费网站| 99在线热视频只有精品免费| 99re66热这里只有精品17| 99re热精品这里精品| 98精品国产高清在线看入口| 91精品91久久久久久| 老子午夜精品无码| 精品蜜臀久久久久99网站| 国产成人精品免费视| 99在线精品免费视频九九视| 伦精品一区二区三区视频| 国产精品第一区揄拍| 国产精品视频永久免费播放| 野花国产精品入口| 国产成人综合久久精品下载| 国产a不卡片精品免费观看| 亚洲日韩中文字幕在线播放| 亚洲av综合日韩|