ACLMay, 2024

辩论评估中大型语言模型的实证分析

TL;DR使用 GPT-3.5 和 GPT-4 等高级大型语言模型对辩论评估进行研究,发现 LLMs 在评估上的表现超过人类,并超过基于大量数据集微调的最先进方法。同时,研究了 LLMs 中存在的偏见,包括位置偏见、词汇偏见和顺序偏见,这可能会影响它们的评价判断。我们的发现表明,无论是 GPT-3.5 还是 GPT-4 都存在一致偏向于第二个候选回答的偏见,这归因于提示设计。此外,在 GPT-3.5 和 GPT-4 中也存在词汇偏见,特别是当含义具有数字或顺序的标签集时,强调在提示设计中需谨慎选择标签的表述。此外,我们的分析表明,这两个模型倾向于认为辩论的结束方是获胜方,暗示存在讨论末尾的偏见。