再思基于 LLM 的偏好评估

Jul, 2024

Rethinking LLM-based Preference Evaluation

Zhengyu Hu, Linxin Song, Jieyu Zhang, Zheyuan Xiao, Jingang Wang...

TL;DR最近，使用大型语言模型（LLM）进行偏好评估已被广泛采用来比较模型回答的优劣。然而，观察到一种严重偏向较长回答的偏差，引发了对这种评估方法可靠性的关注。通过一系列实验，我们设计了这项工作，研究了 LLM-based 偏好评估指标的主要影响因素，即胜率，并得出结论：胜率受到模型回答的两个方面的影响：可取性和信息量，其中前者与长度无关且与可信度相关，而后者与长度相关且可以用条件熵表示。我们发现，长度通过影响信息量而影响现有的评估。然而，一个可靠的评估指标不仅应评估内容质量，还应确保评估不会受到回答长度等外部因素的干扰。因此，我们提出了一种简单而有效的调整方法 AdapAlpaca，用于现有的胜率测量实践。具体而言，通过调整参考答案的长度以与测试模型的答案在相同区间内相匹配，我们可以消除信息量相对长度的偏差，确保公平的模型评估。

Abstract

Recently, large language model (LLM)-based preference evaluation has been widely adopted to compare pairs of model responses. However, a severe bias towards lengthy responses has been observed, raising concerns a

large language model preference evaluation model response win rate evaluation metric

发现论文，激发创造

长度可控的 AlpacaEval：消除自动评估偏见的简单方法

通过回归分析控制偏见，减少 AlpacaEval 的长度偏差，提高与 Chatbot Arena 的相关性。

Apr, 2024

解剖人类和 LLM 偏好

通过对人类和重要语言模型的偏好进行细致分析，研究发现人类对错误不太敏感，倾向于支持他们的观点的回答，并且当模型承认其局限性时显示出明显的不喜欢。相反地，高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外，相似大小的语言模型往往表现出类似的偏好，无论它们的训练方法如何，并且对于仅预训练的语言模型来说，通过对齐进行微调并不显著改变其偏好。最后，研究发现基于偏好的评估可以被有意地操纵，将模型与评委的偏好保持一致将提高评分，而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化，例如在 MT-Bench 上高达 0.59 分（1-10 分制），在 AlpacaEval 2.0 上高达 31.94 分（0-100 分制），突显了这种战略性调整的重要影响。

Feb, 2024

形式胜于内容：大型语言模型的评估偏见

在评估自然语言生成的过程中，使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而，本研究发现其评估结果存在偏见。为解决这一问题，提出了多维度独立评估系统 (Multi-Elo Rating System)，在提高 LLM 评估质量方面取得了显著成效，但对众包评估没有明显改善，需要进一步探索和改进。

Jul, 2023

大型语言模型的评估存在不一致和偏见

本研究通过使用 SummEval 数据集进行一系列分析，证实了大型语言模型作为评估器在以下方面存在偏见和不一致性：（1）体现对低困惑度文本的偏好；（2）显示具有偏见的评分分布；（3）经历多属性判断时的锚定效应。此外，我们分享了配置大型语言模型评估器以减轻这些限制的方法，通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。

May, 2024

大型语言模型中偏重冗余的偏好标注

近年来，大型语言模型（LLMs）在自然语言处理和机器学习领域取得了显著的发展，其性能提升的一个关键因素是通过人类反馈实现与人类的对齐，同时研究发现其他 LLMs 进行强化学习也可以取代人类反馈。本文研究了使用其他 LLMs 来评估 LLMs 时出现的偏差，并着重探究了冗长性偏差 —— 即 LLMs 有时倾向于提供更冗长的答案，即使质量相似。我们发现在我们的问题设置中，GPT-4 更倾向于提供更长的答案，我们提出了一种度量这种偏差的指标。

Oct, 2023

与人类判断相一致：大型语言模型评估者中的成对优先关系的作用

使用 Pairwise-preference Search（PAIRS）方法，通过对比评估候选文本，解决了大型语言模型（LLMs）在评估中出现的偏差与不连贯问题。

Mar, 2024

提升 LLMs 的信任度：比较和解释 LLMs 的算法

评估技术在提高大规模语言模型（LLM）的可信度和理解性方面起到了至关重要的作用，通过算法方法和评估指标来评估 LLM 的性能，发现其弱点，并引导其发展以实现更可信赖的应用。

Jun, 2024

基于压缩的 LLM 排名

我们将理解过程视为信息压缩，并提出了一种基于无损数据压缩的大型语言模型（LLMs）排序方法。我们使用五个大型语言模型作为压缩的先验，并比较它们在困难的自然语言处理任务中的性能，包括句子完成、问题回答和共指消解。实验结果表明，压缩比率和模型性能呈正相关，因此可以作为评估大型语言模型的通用指标。

Jun, 2024

透视偏好：解开大型语言模型对齐中的反馈获取

通过稀疏反馈的设计选择以及反馈协议对大型语言模型（LLMs）的对齐和评估进行分析，发现评分和排名所推断的偏好在人类和人工智能注释者中有显著差异，并揭示了对齐 LLMs 评估的方法中的关键缺陷和对反馈协议的强烈依赖。

Aug, 2023

大型语言模型不是公正的评估器

本文发现了采用大型语言模型（LLMs）作为评判器来评分候选模型生成内容质量的评估范式中的系统偏差。作者提出了两种校准策略来解决这个问题。经过广泛实验，这种方法成功缓解了评估偏差，与人类判断更加接近。为了促进更加强大的大型语言模型比较的未来研究，作者将文章中的技术集成到一个易于使用的工具包 FairEval 中，同时结合了人工注释。

May, 2023