在线天堂中文,精品一区二区三区五区六区七区,久久成人免费网

Anthropic“憲法分類器”能否有效管住大型語言模型的“嘴”？

發布時間：2025-02-05 12:01 來源：ITBEAR 作者：顧雨柔

近日，人工智能領域迎來了一項新的安全創新。為了應對人工智能工具濫用自然語言提示的問題，OpenAI的競爭對手Anthropic推出了一項名為“憲法分類器”的全新概念。這一創新方法旨在將一套類似人類價值觀的規則（形象地比喻為一部“憲法”）嵌入大型語言模型中。

據悉，Anthropic的安全保障研究團隊在一篇最新的學術論文中詳細闡述了這一安全措施。該措施的主要目標是減少其最新、最先進的大型語言模型Claude 3.5 Sonnet的“越獄”行為，即生成超出既定安全防護范圍的輸出內容。實驗結果顯示，在實施憲法分類器后，Claude模型的越獄成功率顯著降低了81.6%，而該系統對模型性能的影響微乎其微，生產流量拒絕率僅絕對增加了0.38%，推理開銷增加了23.7%。

隨著大型語言模型的應用日益廣泛，生成有害內容的風險也日益凸顯。Anthropic及其同行如OpenAI等，對化學、生物、放射和核（CBRN）相關內容的風險尤為關注。例如，這些模型可能會提供制造有害化學制劑的指導。為了驗證憲法分類器的有效性，Anthropic發起了一項挑戰，邀請用戶嘗試突破8個與CBRN內容相關的越獄關卡。然而，這一舉措也引發了一些爭議，有批評者認為這是在利用社區資源為閉源模型的安全測試做貢獻。

針對這些爭議，Anthropic進行了解釋。他們指出，成功的越獄行為是繞過了憲法分類器，而非直接規避。他們列舉了兩種常見的越獄方法：一種是良性釋義，即通過改變表述方式繞過敏感內容；另一種是長度利用，即通過添加無關細節來迷惑模型。同時，Anthropic也承認，在測試期間，一些提示因誤報或漏報而被錯誤地拒絕，拒絕率較高。

Anthropic進一步補充說，盡管已知對沒有憲法分類器的模型有效的越獄方法在這一防御措施下并未成功，但他們仍在不斷改進和完善這一系統。他們認識到，基于規則的測試系統存在局限性，并致力于提高系統的準確性和可靠性。這一創新不僅為大型語言模型的安全性提供了新的解決方案，也為人工智能領域的未來發展開辟了新的方向。

更多>同類內容