如何选择聊天机器人：用于对话指标评估的大规模多系统多参考数据集

May, 2023

如何选择聊天机器人：用于对话指标评估的大规模多系统多参考数据集

How to Choose How to Choose Your Chatbot: A Massively Multi-System MultiReference Data Set for Dialog Metric Evaluation

Huda Khayrallah, Zuhaib Akhtar, Edward Cohen, João Sedoc

TL;DR发布 MMSMR 数据集以促进关于对话度量和评估的未来研究。在单个参考评估集基础上创建了 8 个参考对话数据集，训练了 1750 个系统，并在 Novel 数据集和 DailyDialog 数据集上评估了各个系统的性能指标和模型超参数。

Abstract

We release MMSMR, a massively multi-system multireference dataset to enable future work on metrics and evaluation for dialog. automatic metrics for →

dialogue evaluation massively multi-system multireference dataset language learning conversation dataset automatic metrics robustness correlation

发现论文，激发创造

通过人工多重参考研究开放式对话系统的评估

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

MMDialog：面向多模态开放领域对话的大规模多轮对话数据集

本文介绍了 MMDialog 数据集、提出并规范了两个基于检索和生成场景的反应生成任务，还构建了两个基线，并提出了一种新的评估指标 MM-Relevance，用于衡量多模态反应。

Nov, 2022

社交媒体上的多模式聊天数据集

探索利用图片等多模态语境来改善对话系统，使用自然语言数据集 MMChat，通过人工筛选和过滤得到 MMChat-hf，利用注意力机制改善生成任务的稀疏性，结果表明引入图片特征的有效性和处理稀疏性的效力。

Aug, 2021

DSTC 11 跟踪器 4：开放域对话系统鲁棒性和多语言自动评估指标综述

本文提出神经网络和自动评估方法在对话系统中的应用，特别关注 DSTC11 的自动评估度量标准和结果。

Jun, 2023

通过多引用对抗数据集和大规模预训练来改善对话评估

为了更好地训练和评估基于模型的度量方法，我们引入了 DailyDialog++ 数据集，并提出了一种新的基于 BERT 的度量方法 DEB，该方法预训练与 Reddit 对话中并且对我们的数据集进行了微调。DEB 的性能显著优于现有模型，并表现出更好的与人类判断的相关性和更好的随机负例性能，但在对抗性响应的评估中性能显著下降。

Sep, 2020

一种适用所有语言的 “统治者”: 基于对抗多任务学习的多语言对话评价

提出了一种跨语言对话评估的 ADVMT 模型，利用神经网络指标对开放域对话系统的表现进行评估，并在两种不同语言的情况下进行评估，结果显示其与人工评估的相关性高于现有指标。

May, 2018

多语言自动对话评估

通过使用机器翻译来增强现有的英文对话数据，我们提出了一个绕过数据缺乏问题的方法，用于开发鲁棒的多语言对话评估指标，并通过实验证明，与仅使用源数据微调多语言模型的强基线相比，仅仅使用翻译数据微调预训练的多语言编码器模型的天真方法无法取得更好的性能。相反，最佳方法是通过使用机器翻译质量估计度量仔细策划翻译数据，排除低质量翻译对其性能的影响。

Aug, 2023

面向人的对话系统评估指标

提出基于心理学，对话系统评估的度量标准，包括情感熵、语言风格和情感匹配度、宜人性和共情等 5 个指标。将这些指标与 6 个最先进的自动评价指标进行比较，并使用三种不同模型（ChatGPT、GPT-3 和 BlenderBot）的对话数据集进行实验，结果表明，所提出的人类度量标准不仅提供了新颖的信息，而且与自动度量标准不相关，并且优于现有的自动度量标准在预测众包对话评价方面的准确性。所提出的基于人类中心的框架具有解释性和独特的信号，是评估和改进对话系统的有价值的工具。

May, 2023

对话评估指标的全面评估

这篇论文对 23 种不同的自动评估度量在 10 个不同的数据集上进行了评估，并在不同的设置中对其进行了评估，从而更好地确定它们各自的优缺点。综合评估提供了关于对话评估指标的几个认识，为未来的研究提供了有用的指导。

Jun, 2021

针对对话推荐系统的合成数据集评估

本研究提出对生成模型产生的数据集进行多方面评估的框架，探讨了各种评估方法的优缺点

Dec, 2022