Feb, 2025

通过去偏见实现安全对齐语言模型的脆弱性缓解

TL;DR本研究解决了现有安全对齐方法未能在特定类别中确保安全性的问题,开发了无学习的方法(TSDI)来评估和修正生成过程中的偏见。实验表明,该方法在提高模型可用性的同时维持了安全性,从而改善了安全性与有用性之间的平衡。