May, 2024

大规模语言模型的全面高效后编程安全对齐

TL;DR我们提出了一种后安全对齐(PSA)方法,以解决目前大型语言模型(LLMs)中脆弱和不平衡的安全机制问题,并且能够提升安全性、减轻过度安全性,并在保持实用性的同时无缝集成到目标 LLM 中。实验表明,这种方法不仅实现了比基准方法更全面和高效的后安全对齐,还增强了骨干模型的实用性,在当前对齐的 LLMs 中优化了有用性和无害性之间的平衡,同时在持续 PSA 场景下展示了其优越性。