Feb, 2024

基于似然的大型语言模型评估偏差的缓解

TL;DR大型语言模型广泛用于自然语言生成任务的自动评估指标,然而,由于句子中的表面差异(如词序和句子结构),可能会导致语言模型的可能性有所偏差,本文研究了基于语言模型的评估器中可能存在的可能性偏见,并提出了缓解可能性偏见的方法,该方法利用高度偏倚的实例作为少样本示例进行上下文学习,实验证明我们测试的几个语言模型存在可能性偏见,而且我们提出的方法成功地缓解了这种偏见,并显著提高了评估性能(与人类评分的相关性)。