Mar, 2024

消除否定性:通过分布偏好优化实现无需人工正例样本的对齐

TL;DR通过利用人工标注的负样本,提出了一种基于分布差异优化的方法来使大型语言模型朝向人类偏好对齐,以减少有害信息的生成。实验证明该方法在生成质量、有害信息数量和训练稳定性方面均优于最新基线模型。