Oct, 2024

AgentHarm:衡量大型语言模型代理 harmfulness 的基准

TL;DR本研究解决了大型语言模型(LLM)代理在被滥用时的安全性评估差距。提出的AgentHarm基准通过多样化的恶意代理任务,评估模型拒绝有害请求的能力,同时测试在攻击后的多步骤任务执行能力。研究发现,现有领先的LLM对恶意请求表现出意外的顺从性,从而凸显了这一问题的紧迫性和严重性。