Mar, 2024

对齐器:解耦LLMs和对齐

TL;DR通过使用合成数据训练可调整的模型,我们提出了一种解耦大型语言模型和对齐过程的方法,以确保其在大多数应用中的安全性和实用性,并减少对齐对性能的潜在负面影响。我们通过训练一个“道德”对齐器模型并从实证角度验证其有效性来阐明我们的方法。