Jun, 2024

GuardAgent: 通过知识驱动的推理由防护手段保护LLM Agents

TL;DR大型语言模型在应用中的快速发展引发了关于其安全性和可信度的新问题。本文提出了GuardAgent作为LLM代理的守卫,通过检查输入/输出是否满足用户定义的一组保护要求来监督目标LLM代理,从而增强其安全性。GuardAgent具有可扩展的工具箱、无需额外的LLM训练,并且在两个基准测试中实现了对两种类型代理的无效输入和输出进行调节的98.7%和90.0%的准确性。