Jun, 2024

WildGuard: 一站式开源安全风险、越狱及拒绝率审核工具

TL;DRWildGuard是一个开放、轻量级的LLM安全审核工具,可以识别用户提示的恶意意图、检测模型响应的安全风险以及确定模型的拒绝率。通过在广泛的风险类别上提供精确性和广覆盖性,WildGuard满足了对LLM交互的自动安全审核和评估的不断增长的需求,并且与现有开放式审核工具相比,在评估模型拒绝行为时表现卓越,特别是在识别对抗性越狱和评估模型拒绝中.