Aug, 2024

无过度:通过安全意识激活引导减轻大语言模型的夸大安全

TL;DR本研究解决了安全对齐的大语言模型(LLMs)因夸大安全问题而拒绝善意查询的困境,限制了其有用性。提出的安全意识激活引导(SCANS)方法通过提取拒绝引导向量,识别引导方向,使模型行为达到夸大安全与适当安全之间的平衡。实验表明,SCANS在多个基准测试中实现了最新的领先性能,未削弱对恶意查询的防御能力,同时保持模型能力几乎不变。