大型语言模型的评估存在不一致和偏见
通过对大型语言模型的评估,本文发现 LLM-based evaluators 在多语言评估方面可能存在偏差,并需要使用本地语言的数据集进行校准。
Sep, 2023
在评估自然语言生成的过程中,使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而,本研究发现其评估结果存在偏见。为解决这一问题,提出了多维度独立评估系统 (Multi-Elo Rating System),在提高 LLM 评估质量方面取得了显著成效,但对众包评估没有明显改善,需要进一步探索和改进。
Jul, 2023
我们提出了一个针对多语言情景下 LLMs 作为评估器的端到端评估框架,并创建了一个用于评估 LLM-based 评估器的精心策划的数据集,该数据集覆盖 10 种语言,包含本族语言者对摘要任务的判断。我们比较了基于 GPT-3.5-Turbo、GPT-4 和 PaLM2 创建的 LLM-based 评估器的性能,结果表明,基于 GPT-4 的 LLM-based 评估器在各种语言中表现最好,而 GPT-3.5-Turbo 的表现不佳。此外,我们对 LLM-based 评估器提供的推理进行分析,发现它往往与人类评判所提供的推理不一致。
Apr, 2024
本文旨在探讨使用 LLMS(例如 “gpt-3.5-turbo”)作为自动评估器来评估摘要的性能,并比较了不同的评估方法和提示格式对其评估能力的影响。作者建议哪些提示格式可以提高 LLM 的性能,并讨论了 LLM 的评估能力随摘要质量和评估维度的变化。
May, 2023
本文发现了采用大型语言模型(LLMs)作为评判器来评分候选模型生成内容质量的评估范式中的系统偏差。作者提出了两种校准策略来解决这个问题。经过广泛实验,这种方法成功缓解了评估偏差,与人类判断更加接近。为了促进更加强大的大型语言模型比较的未来研究,作者将文章中的技术集成到一个易于使用的工具包 FairEval 中,同时结合了人工注释。
May, 2023
大型语言模型广泛用于自然语言生成任务的自动评估指标,然而,由于句子中的表面差异(如词序和句子结构),可能会导致语言模型的可能性有所偏差,本文研究了基于语言模型的评估器中可能存在的可能性偏见,并提出了缓解可能性偏见的方法,该方法利用高度偏倚的实例作为少样本示例进行上下文学习,实验证明我们测试的几个语言模型存在可能性偏见,而且我们提出的方法成功地缓解了这种偏见,并显著提高了评估性能(与人类评分的相关性)。
Feb, 2024
本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现 LLM 评估结果与人类专家的评估结果保持一致。
May, 2023
大型语言模型(LLMs)作为通过简单提示和上下文学习的自动评估器已被证明有效。本研究汇集了四个不同规模范围的 15 个 LLMs,并通过系统之间的偏好排序来评估它们的输出响应,如 System Star 优于 System Square。我们引入了 LLMs 作为评估器的认知偏差基准(CoBBLEr)来评估排序输出的质量,该基准用于衡量 LLM 评估输出中的六种不同的认知偏差,如自我中心偏差,其中模型倾向于高度评估其自身的输出。我们发现 LLMs 是有偏差的文本质量评估器,在评估中展示出强烈的偏见基准迹象(在所有模型中的比较平均为 40%),这对其作为评估器的稳健性提出了质疑。此外,我们检查了人类和机器偏好之间的相关性,并计算出平均 Rank-Biased Overlap(RBO)得分为 49.6%,表明机器偏好与人类不一致。根据我们的发现,LLMs 可能仍然不能用于与人类偏好对齐的自动注释。我们的项目页面位于此 https URL。
Sep, 2023
通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估,我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键,并通过从自由职业作家收集的高质量摘要进行人类评估,得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。
Jan, 2023
本文提出了一种新的评估框架,基于 LLMs,并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度,并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件,并根据批处理提示设计了多角色扮演者提示技术,以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明,该模型非常具有竞争力,且与人类注释者具有非常高的一致性。
Mar, 2023