Jun, 2024
安全算法:通过控制参数和激活函数在测试时间对齐语言模型的安全性
Safety Arithmetic: A Framework for Test-time Safety Alignment of
Language Models by Steering Parameters and Activations
TL;DR安全算术是一种训练-free 的框架,可提高大型语言模型在不同场景下的安全性,通过避免有害内容和促进安全响应来确保模型的安全性,实验证明安全算术在确保生成安全内容方面优于现有方法。