Aug, 2024

雅典娜:安全自主代理的语言对比学习

TL;DR本研究针对大语言模型在自主性和安全性方面的不足,提出了雅典娜框架,利用语言对比学习来增强代理的安全性,确保其在执行任务时避免风险。同时,我们创建了一个包含80个工具包和180个场景的安全评估基准,以评估LLM代理的安全推理能力。实验结果表明,该框架显著提高了代理的安全性。