Feb, 2025
为什么安全保障的船只会搁浅?大型语言模型的安全机制往往受限于模板区域
Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety
Mechanisms Tend to Be Anchored in The Template Region
TL;DR本研究解决了大型语言模型(LLMs)安全对齐过程中的脆弱性问题,提出模板锚定安全对齐是造成这些模型易受攻击的关键因素。研究表明,通过将安全机制与模板区域分离,能够有效降低模型对越狱攻击的脆弱性,从而为未来的研究提供了新的思路。