国产精选一区二区三区不卡催乳,www91在线观看,精品国产乱码久久久久久88av

Meta發布LlamaFirewall，為AI智能體筑起系統級安全防線

發布時間：2025-05-09 15:35 來源：ITBEAR 作者：朱天宇

meta AI公司近期揭曉了一項創新技術——LlamaFirewall，專為應對AI智能體面臨的日益復雜的安全威脅而生，旨在為生產環境中的AI智能體筑起一道系統級的安全防線。

隨著大型語言模型（LLMs）在AI智能體中的深度嵌入，并在諸多高權限場景中廣泛應用，安全問題日益凸顯。這些智能體具備讀取郵件、編寫代碼、調用API等強大功能，一旦被惡意利用，后果將不堪設想。

然而，傳統的安全機制，如聊天機器人內容審核或硬編碼模型限制，在面對功能廣泛的AI智能體時顯得力不從心。meta AI針對提示注入攻擊、智能體行為偏離用戶目標、不安全代碼生成等核心挑戰，精心打造了LlamaFirewall。

LlamaFirewall采用分層架構設計，內含三大專業防護模塊。其中，PromptGuard 2基于BERT架構，是一款強大的分類器，能夠實時檢測越獄行為和提示注入，支持多語言輸入。其86M參數模型性能卓越，而22M輕量版本則更適合低延遲部署場景。

AlignmentCheck則是一種創新的審計工具，通過深入分析智能體內部推理軌跡，確保其行為始終與用戶目標保持一致。該工具在檢測間接提示注入方面表現出色。

CodeShield作為一個靜態分析引擎，專注于檢查LLM生成的代碼中的不安全模式。它支持多種編程語言，能夠在代碼提交或執行前準確捕獲SQL注入等常見漏洞，確保代碼的安全性。

為了驗證LlamaFirewall的有效性，meta在AgentDojo基準測試中對其進行了全面評估。測試中模擬了來自97個任務領域的提示注入攻擊。結果顯示，PromptGuard 2（86M）成功將攻擊成功率（ASR）從17.6%降低到7.5%，且對任務實用性的影響微乎其微。而AlignmentCheck的加入進一步將ASR降至2.9%。整個LlamaFirewall系統將ASR降低了90%，降至1.75%，盡管實用性略有下降至42.7%，但仍保持在可接受范圍內。同時，CodeShield在不安全代碼數據集上的表現同樣亮眼，精準度高達96%，召回率達到79%，響應時間也完全滿足生產環境的實時使用需求。

更多>同類內容