Apr, 2024

通过概念激活向量揭示开放源代码 LLMs 中的安全风险

TL;DR通过概念模型解释从大规模语言模型中提取安全概念激活向量(SCAVs),我们介绍了一种 LLM 攻击方法,可以对经过充分安全对齐的 LLMs 如 LLaMA-2 进行高效攻击,达到近 100% 的攻击成功率,表明即使经过彻底的安全对齐,LLMs 在公开发布后仍可能对社会造成潜在风险。