无需真实标准的大型语言模型排名

Feb, 2024

无需真实标准的大型语言模型排名

Ranking Large Language Models without Ground Truth

Amit Dhurandhar, Rahul Nair, Moninder Singh, Elizabeth Daly, Karthikeyan Natesan Ramamurthy

TL;DR大语言模型的评估和排名是一个重要的问题，本研究提出了一种新的方法，在没有任何参考数据的情况下，通过考虑三元组模型相互评估来排名这些模型，实验证明该方法可靠地恢复接近真实的排名，为实际使用提供了可行的低资源机制。

Abstract

evaluation and ranking of large language models (LLMs) has become an important problem with the proliferation of these models and their im

large language models evaluation ranking triplets generative tasks

发现论文，激发创造

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现 LLM 评估结果与人类专家的评估结果保持一致。

May, 2023

大型语言模型不是公正的评估器

本文发现了采用大型语言模型（LLMs）作为评判器来评分候选模型生成内容质量的评估范式中的系统偏差。作者提出了两种校准策略来解决这个问题。经过广泛实验，这种方法成功缓解了评估偏差，与人类判断更加接近。为了促进更加强大的大型语言模型比较的未来研究，作者将文章中的技术集成到一个易于使用的工具包 FairEval 中，同时结合了人工注释。

May, 2023

大型语言模型可用于零样本推荐系统排序

此研究旨在探究大型语言模型在推荐系统中的排名能力，通过采用提示模板设计和引入特定策略，研究发现大型语言模型在候选物品的零 - shot 排名上有着很好的表现，但是若考虑历史互动的顺序、位移等因素，不同的提示和启发方法能够对大型语言模型的表现产生影响。

May, 2023

PRD：同行评等与讨论提升基于大型语言模型的评估

研究论文通过引入基于教育领域的 insights 和 lessons，提出了改进大型语言模型评估的新方法，包括利用同行排序算法和同行讨论来提高评估的准确性和与人类判断的一致性，并为探索难以比较的模型提供了空间。

Jul, 2023

大型语言模型具有配对排名提示的有效文本排名器

本文提出了一种新的技术叫做 Pairwise Ranking Prompting (PR)，通过使用适当的排名提示，减少了 LLMs 的负担，使用 moderate-sized open-sourced LLMs 在标准的基准测试中实现了最先进的排名表现。

Jun, 2023

基于预测的大型语言模型排序

使用统计框架，我们可以以一定的概率保证，通过人类和强大的大型语言模型的成对比较排名结果覆盖了人类偏好的真实排名。

Feb, 2024

2023 Eval4NLP 子任务：使用促使大型语言模型作为解释性⽅法的度量

介绍了 Eval4NLP 2023 共享任务，要求参与者在机器翻译和摘要评估中探索提示和分数提取，并评估了参与者的方法。在没有 fine-tuning 的限制下，最佳系统的表现与使用更大模型开发的最新的无参考度量标准（包括 GEMBA 和 Comet-Kiwi-XXL）相媲美甚至超过，并对 LLMs 的解释的可行性进行了小规模人类评估。

Oct, 2023

大型语言模型的评估存在不一致和偏见

本研究通过使用 SummEval 数据集进行一系列分析，证实了大型语言模型作为评估器在以下方面存在偏见和不一致性：（1）体现对低困惑度文本的偏好；（2）显示具有偏见的评分分布；（3）经历多属性判断时的锚定效应。此外，我们分享了配置大型语言模型评估器以减轻这些限制的方法，通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。

May, 2024

简单的 LLM 提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023

RankPrompt: 逐步对比使语言模型成为更好的推理者

通过使用 RankPrompt 方法，LLMs 可以自我评级其回答，从而显著提高 ChatGPT 和 GPT-4 的推理表现。

Mar, 2024