Mar, 2024

广泛的自对比使得无需反馈的语言模型对准

TL;DR通过利用自动生成的负例,自我对比是一种无需依赖人类反馈的大型语言模型对齐方法,仅通过有监督的微调目标,利用语言模型本身生成大量多样化的候选,并根据文本相似性使用预训练的嵌入模型筛选多个负例,实验证明在此设置下,仅通过缩放负响应仍可以有效地近似具有更平衡的正面和负面偏好注释的情况,通过对三个数据集的直接偏好优化实验表明,自我对比可以始终显著优于有监督微调和标准偏好优化训练,当自生成负例的数量增加时,自我对比的性能也在不断提高。