Feb, 2024
自我反馈的危险:自我偏见在大型语言模型中增强
Perils of Self-Feedback: Self-Bias Amplifies in Large Language Models
TL;DR最近的研究表明,自我反馈可以改善大型语言模型在某些任务上的表现,但对其他任务而言则会恶化。我们发现这种矛盾是由于语言模型对自己的输出存在偏见所致。本文通过两个统计量正式定义了语言模型的自我偏见——偏爱其自身生成的内容。我们分析了六个语言模型在翻译、受限文本生成和数学推理任务上的表现。我们发现自我偏见在所有研究的语言模型中普遍存在,并且跨多种语言和任务。我们的分析揭示了自我优化流程虽然可以提高模型输出的流畅度和可理解性,但会进一步放大自我偏见。为了减轻这种偏见,我们发现更大的模型规模和准确评估的外部反馈可以显著减少自我优化流程中的偏见,从而在下游任务中实现实际性能的提升。