Jul, 2024

RedAgent:具有上下文感知的自主语言代理的大型语言模型红队测试

TL;DR本研究针对大型语言模型(LLMs)在实际应用中面临的安全漏洞问题,尤其是越狱攻击导致有害反应的风险。提出了名为RedAgent的多智能体系统,能够生成上下文感知的越狱提示,显著提升现有红队测试方法的效率,使得在仅需五次查询的情况下成功越狱大多数黑箱LLM,并高效发现真实应用中的严重漏洞。