苏打评估：大语言模型时代的开放领域对话评估

Aug, 2024

苏打评估：大语言模型时代的开放领域对话评估

Soda-Eval: Open-Domain Dialogue Evaluation in the age of LLMs

John Mendonça, Isabel Trancoso, Alon Lavie

TL;DR本研究解决了当前开放领域对话评估中缺乏适应现代聊天机器人的基准问题。通过引入基于Soda的Soda-Eval数据集，该数据集提供了超过12万次对话轮次的评估注释，并使用此基准评估多种开放获取的指令调优模型，发现对话评估仍然面临挑战，模型微调提升了评估效果。

Abstract

Although human evaluation remains the gold standard for open-domain Dialogue Evaluation, the growing popularity of automated evaluation using Large Language Models (LLMs) has also extended to dialogue. However, m

发现论文，激发创造

ACUTE-EVAL: 优化问题和多轮比较的对话评估改进

本研究提出一个基于自我对话模型的评价过程，旨在寻找一种在不同注释人员之间具有更强鲁棒性的评级测试方案。经过实验证明，在这种方案下，我们可以在更快、更便宜的情况下推出新的测试标准并发布开源代码。

Sep, 2019

MDD-Eval：基于增强数据的自训练多领域对话评估

提出了MDD-Eval框架，通过对话内评价与跨领域自学得到多领域评价能力，从而使得相较于现有自动对话评价指标，其在6个评价基准测试中可以取得7%的平均Spearman相关性分数的显著提高。

Dec, 2021

PoE：面向广义自动对话评估的专家小组

通过构建一个专门为领域通用而设计的Panel of Experts（PoE）网络，我们实现了一个能够在多个对话领域实现最佳表现的其次对话评估度量标准（ADEM）。该网络包含了共享编码器和多个适应器，每个适应器都专注于一项特定领域并充当其领域专家。该模型以平均斯皮尔曼相关性的方式取得了各项评估指标上的最新成果，同时表现出比现有ADEMs更好的零-shot泛化能力，以及容易适应于少量转移学习的新领域。

Dec, 2022

SODA: 百万级社交常识语境下的对话压缩

本文提出了SODA数据集，该数据集包含100万个高质量的社交对话，利用该数据集训练了COSMO，一个可推广的谈话代理，在域内和域外数据集上表现优异，同时进行了广泛的评估，并与以前最优秀的谈话模型进行了比较，结果表明COSMO在未知数据集上表现更加自然和一致。

Dec, 2022

通过提示逼近人类对社交聊天机器人的评估

提出了一种利用GPT模型进行对话系统评估的新框架，通过对模型进行特定条件训练来生成评估指标，采用少量的演示和指导进行提示，可以在自动化评估过程中取得与人类评价高度相关的结果。

Apr, 2023

LLM-Eval：用于大型语言模型开放域对话的统一多维自动评估

本文提出了LLM-Eval，一种针对使用大型语言模型（LLM）的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面，LLM-Eval可以在单个模型调用中进行。我们对LLM-Eval在各种基准数据集上的性能进行了全面评估，表明它相对于最先进的评估方法具有高效性和适应性。同时，该分析还强调了选择适当的LLM和解码策略以获得准确评估结果的重要性。LMM-Eval为评估开放领域对话系统提供了一种多功能且强大的解决方案，可以简化评估过程并在不同场景中提供一致的性能。

May, 2023

xDial-Eval: 多语言开放领域对话评估基准

使用预训练语言模型和高质量标注的对话数据，最近关于开放域对话评估的无参考学习测量的进展主要集中在英文对话上，对这些测量指标在其他语言上的泛化性还没有得到充分研究。因此，为了解决这个问题，我们引入了一个基于英文对话评估数据集的xDial-Eval来进行多语言对话评估基准测试，并建立了自监督和多语言基线模型。与OpenAI的ChatGPT相比，最好的基线模型在所有数据集和语言上的平均Pearson相关系数分别提升了6.5%和4.6%，同时具有更少的参数。

Oct, 2023

对话评估工作台: 将LLMs作为类人对话系统进行评估

本文提出了DialogBench，这是一个用于评估LLMs作为类似人类对话系统的能力的对话评估基准，包含12个对话任务。通过对28个LLMs进行广泛的测试，结果表明虽然细化调整能改善LLMs的人类对话系统相似度，但对于大多数LLMs仍有提升空间。

Nov, 2023

SD-Eval: 口语对话理解的基准数据集超越文本

为了评估和改进大型语言模型在口语对话理解和生成方面的能力，我们提出了SD-Eval标准数据集，该数据集聚合了代表情感、口音、年龄和背景声音的四个维度的7,303个话语，总计8.76个小时的语音数据，并通过客观和主观评估方法，以及基于大型语言模型的指标，证明了在任务定义和模型开发中使用语音的附加信息可以显著提高生成响应的质量。

Jun, 2024

关于开放领域对话评估的LLMs基准测试

大型语言模型已在自然语言处理各个任务中显示出卓越的能力。然而，在自动开放领域对话评估方面，现有的评估基准往往依赖于过时的数据集，评估流畅度和相关性等方面，无法充分捕捉现代聊天机器人模型的能力和限制。本论文对当前的评估基准进行了批判性研究，强调使用旧的响应生成器和质量方面未能准确反映现代聊天机器人的能力。对近期LLM生成的数据集(SODA)进行的小型注释实验揭示了GPT-4等LLM评估者在检测当前LLM聊天机器人生成的对话中的实际问题方面存在困难。

Jul, 2024