Apr, 2024

优先噪声对生成式语言模型对齐性能的影响

TL;DR本文提出了一种注入不同类型和量级噪声的偏好框架,并在两个任务(文摘和对话生成)中系统地研究了偏好噪声对齐性能的影响。我们发现偏好数据中噪声率的增加会导致对齐性能的显著下降,并提出基于置信度的数据过滤方法以减少噪声的影响。我们希望这项工作可以帮助学界更好地理解和减轻 Generative Language Models 对偏好噪声的影响。