Feb, 2024

HarmBench:自动红队与稳健拒绝的标准化评估框架

TL;DR自动红队测试对于发现和减轻与大型语言模型(LLMs)恶意使用相关的风险具有重要意义,然而该领域缺乏一个标准化评估框架来严格评估新方法。为解决这个问题,我们引入了 HarmBench,一个用于自动化红队测试的标准化评估框架。使用 HarmBench,我们对 18 种红队测试方法和 33 种目标 LLMs 和防御进行了大规模比较,得出了新的见解。我们还引入了一种高效的对抗训练方法,极大地增强了 LLMs 对各种攻击的鲁棒性,展示了 HarmBench 如何实现攻击和防御的共同发展。我们在该 https URL 上开源了 HarmBench。