通过响应选择评估对话生成系统

ACLApr, 2020

Evaluating Dialogue Generation Systems via Response Selection

Shiki Sato, Reina Akama, Hiroki Ouchi, Jun Suzuki, Kentaro Inui

TL;DR本研究提出了一种构建响应选择测试集以进行系统评估的方法，通过过滤不相关的和可接受的候选者，实验表明此方法比 BLEU 等自动评估指标更能与人类评估相关联。

Abstract

Existing automatic evaluation metrics for open-domain dialogue response generation systems correlate poorly with human evaluation. We focu

automatic evaluation metrics open-domain dialogue response response selection test sets human evaluation

发现论文，激发创造

开放域对话响应选择的系统评估

本研究对开源聊天机器人的多种回复生成方法进行了系统评估，提出了利用手动注释筛选出的多个正向回复和负向回复，从而提高模型效果的新训练数据，并实验证明性能较之采用对抗训练数据有更显著提升。

Aug, 2022

生成、评估和选择：具有响应评估器的对话系统，用于多样性感知响应生成

本文提出了一种生成评估模型，评估由响应生成器生成的多个响应并由评估器选择最佳响应，以克服当前对话系统响应缺乏多样性的问题，并提高对话系统与用户的互动效果。人类评估结果表明，该模型的响应通常被认为比基线系统的响应更好，并且表明该方法的有效性。

Jun, 2022

如何不评估您的对话系统：对话响应生成任务无监督评估指标的实证研究

本文研究对话响应生成系统的评估指标，其中没有可用的监督标签。最近，对话响应生成的研究采用了机器翻译的指标来比较模型生成的响应和单个目标响应。我们展示了这些指标与非技术 Twitter 领域中的人类判断之间的关系非常弱，而在技术 Ubuntu 领域中根本没有。我们提供了定量和定性结果，突出了现有指标的特定弱点，并提供了未来开发更好的自动评估指标的建议。

Mar, 2016

说话者敏感性响应评估模型

该研究提出了一种基于相邻对话的自动评估模型，利用未标注对话语料库中的说话者定义不同级别的类似上下文，使用推特对话语料库进行实验，表明与其他现有评估指标相比，该模型具有更高的人类标注得分相关性。并展示了在无需额外训练的情况下，将该模型应用于电影对话。

Jun, 2020

面向任务的对话系统中神经响应选择的训练

通过在大型通用领域对话语料库上预训练反应选择模型，然后利用小型特定领域数据微调预先训练的模型，本论文提出了一种有效的方法来部署任务导向对话中的响应选择，取得了很好的效果。在六个不同的应用领域，从电子商务到银行业，本方法都表现出了良好的效果。

Jun, 2019

通过人工多重参考研究开放式对话系统的评估

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

设计精确和鲁棒的对话响应评估器

本文提出建立无参考评估器以及利用半监督训练和预训练（掩码）语言模型的方法来改进自动对话响应评估器的性能，实验结果表明所提出的自动评估器与人类判断具有很强的相关性（>0.6）并且能够很好地适应不同的回答和语料库。该研究代码和数据已经开源在指定链接。

Apr, 2020

重新审视开放域对话系统中的回应评估

通过分析和研究，本文从交互对话参与者的角度探讨了自动回复评估器所需的功能特征，并通过实验发现交互对话参与者的意识在确保自动回复评估与其判断相关性方面起着关键作用。同时，通过大规模对话数据集的使用，证明了对话连续性预测可以训练出一个具备交互对话参与者意识的自动回复评估器，但相较于人类回复，评估生成回复的困难性也得到了揭示。

Jan, 2024

对话生成语义多样性的测量和改进

本文提出了一种新的自动化评估指标，用于衡量生成响应的语义多样性，以及一种基于语义分布权重的学习方法，用于提高生成响应的语义多样性和连贯性。

Oct, 2022

利用自动会话评估器实现连贯和引人入胜的口语对话响应生成

本研究提出一个评估聊天机器人响应的系统，利用明确的反馈机制改进神经响应图生成模型，从而获得更具连续性和参与度的响应。

Apr, 2019