Feb, 2024

SALAD-Bench: 大型语言模型的分层与综合安全评估基准

TL;DR大型语言模型(LLMs)的安全性评估是一个重要问题,该研究提出了一个名为 SALAD-Bench 的安全性基准,用于评估 LLMs 的攻击和防御方法,并通过广泛的实验验证 LLMs 对新兴威胁的抵抗力和现代防御策略的有效性。