MDD-Eval：基于增强数据的自训练多领域对话评估

AAAIDec, 2021

MDD-Eval：基于增强数据的自训练多领域对话评估

MDD-Eval: Self-Training on Augmented Data for Multi-Domain Dialogue Evaluation

Chen Zhang, Luis Fernando D'Haro, Thomas Friedrichs, Haizhou Li

TL;DR提出了 MDD-Eval 框架，通过对话内评价与跨领域自学得到多领域评价能力，从而使得相较于现有自动对话评价指标，其在 6 个评价基准测试中可以取得 7% 的平均 Spearman 相关性分数的显著提高。

Abstract

chatbots are designed to carry out human-like conversations across different domains, such as general chit-chat, knowledge exchange, and persona-grounded conversations. To measure the quality of such conversational agents, a dialogue evaluator is expected to conduct assessment across d

chatbots dialogue evaluation multi-domain mdd-eval automatic dialogue evaluation metrics

发现论文，激发创造

使用自我对战近似交互式人类评估的开放域对话系统

本文提出一种交互式的人工评估对话质量的方法，并介绍了一种基于自我对话的度量方式，该方式可以更好地捕捉对话模型的质量，同时使用了情感和语义连贯性等维度。通过对多个模型的实验比较，研究表明，这种度量方式优于目前已知的所有自动化方法，同时也优于静态会话的人工评估。最后，开放性地共享出研究基于交互式评估所构建的数据集和平台以供其它研究者使用。

Jun, 2019

迈向自动图灵测试：学习对话响应评估

提出 ADEM 模型用于对话质量的学习式自动评估，其比基于词汇重叠的 BLEU 更能与人类评估相匹配，同时具有泛化评估不同模型的能力。

Aug, 2017

一种适用所有语言的 “统治者”: 基于对抗多任务学习的多语言对话评价

提出了一种跨语言对话评估的 ADVMT 模型，利用神经网络指标对开放域对话系统的表现进行评估，并在两种不同语言的情况下进行评估，结果显示其与人工评估的相关性高于现有指标。

May, 2018

通过人工多重参考研究开放式对话系统的评估

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

ChatEval：基于多智能体辩论的 LLM 评估器改进

通过多代理辩论框架，构建了一个名为 ChatEval 的多代理裁判团队，用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量，分析结果表明 ChatEval 不仅仅提供文本评分，还提供了模拟人类评估过程以进行可靠评估。

Aug, 2023

DSTC 11 跟踪器 4：开放域对话系统鲁棒性和多语言自动评估指标综述

本文提出神经网络和自动评估方法在对话系统中的应用，特别关注 DSTC11 的自动评估度量标准和结果。

Jun, 2023

LLM-Eval：用于大型语言模型开放域对话的统一多维自动评估

本文提出了 LLM-Eval，一种针对使用大型语言模型（LLM）的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面，LLM-Eval 可以在单个模型调用中进行。我们对 LLM-Eval 在各种基准数据集上的性能进行了全面评估，表明它相对于最先进的评估方法具有高效性和适应性。同时，该分析还强调了选择适当的 LLM 和解码策略以获得准确评估结果的重要性。LMM-Eval 为评估开放领域对话系统提供了一种多功能且强大的解决方案，可以简化评估过程并在不同场景中提供一致的性能。

May, 2023

FineD-Eval: 细颗粒自动对话级别评估

本文介绍了一种基于多维度的对话级度量方法，由三个子度量组成，对每个子度量使用新颖的自监督方法进行训练，通过指标组合和多任务学习的方式，综合度量显著优于单一子度量。

Oct, 2022

实现对开放域对话系统的可靠人工评估

本文提出了一种可靠且低成本的人类评估方法，以取代已被证明不可靠的自动评估方法，比较了与无人设定的系统相比，使用人设定对话主题的对话系统在对话质量上没有积极的贡献。

Mar, 2022

可迁移的对话系统和用户模拟器

通过对话系统和用户模拟器之间的交互，开发了一种建模框架，旨在通过自动对话场景的创建来解决训练数据不足的问题，并使用强化学习来改进智能体的行为，从而在转移学习中提高对话系统性能。

Jul, 2021