使用跟进概率进行开放域对话评估

COLINGSep, 2022

使用跟进概率进行开放域对话评估

Open-Domain Dialog Evaluation using Follow-Ups Likelihood

Maxime De Bruyn, Ehsan Lotfi, Jeska Buhmann, Walter Daelemans

TL;DR本研究提出一种新的自动对话评估方法，使用固定的跟进集合（例如，这里没有真正相关的内容，你想说什么），测量语言模型继续对话的概率。相对于现有的 12 种评估方法，本方法与人类评估的相关性最高。

Abstract

Automatic evaluation of open-domain dialogs remains an unsolved problem. Moreover, existing methods do not correlate strongly with human annotations. This paper presents a new automated evaluation method using

open-domain dialogs automated evaluation method language model follow-ups human evaluations

发现论文，激发创造

自动对话评估的用户响应和情感预测

本文提出了三种方法，利用情感分析对开放域对话进行自动评估，并在书面和口头对话数据集上胜过现有的自动评估指标。

Nov, 2021

通过人工多重参考研究开放式对话系统的评估

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

实现对开放域对话系统的可靠人工评估

本文提出了一种可靠且低成本的人类评估方法，以取代已被证明不可靠的自动评估方法，比较了与无人设定的系统相比，使用人设定对话主题的对话系统在对话质量上没有积极的贡献。

Mar, 2022

利用用户情感进行自动对话评估

本文提出使用自动提取的信息作为衡量已有机器人回答质量的替代方法，从而避免了对人工标注数据的依赖，实现对弱监督数据的训练，并添加了对口语和书面语的支持。

Mar, 2022

使用自我对战近似交互式人类评估的开放域对话系统

本文提出一种交互式的人工评估对话质量的方法，并介绍了一种基于自我对话的度量方式，该方式可以更好地捕捉对话模型的质量，同时使用了情感和语义连贯性等维度。通过对多个模型的实验比较，研究表明，这种度量方式优于目前已知的所有自动化方法，同时也优于静态会话的人工评估。最后，开放性地共享出研究基于交互式评估所构建的数据集和平台以供其它研究者使用。

Jun, 2019

重新审视开放域对话系统中的回应评估

通过分析和研究，本文从交互对话参与者的角度探讨了自动回复评估器所需的功能特征，并通过实验发现交互对话参与者的意识在确保自动回复评估与其判断相关性方面起着关键作用。同时，通过大规模对话数据集的使用，证明了对话连续性预测可以训练出一个具备交互对话参与者意识的自动回复评估器，但相较于人类回复，评估生成回复的困难性也得到了揭示。

Jan, 2024

说话者敏感性响应评估模型

该研究提出了一种基于相邻对话的自动评估模型，利用未标注对话语料库中的说话者定义不同级别的类似上下文，使用推特对话语料库进行实验，表明与其他现有评估指标相比，该模型具有更高的人类标注得分相关性。并展示了在无需额外训练的情况下，将该模型应用于电影对话。

Jun, 2020

迈向自动图灵测试：学习对话响应评估

提出 ADEM 模型用于对话质量的学习式自动评估，其比基于词汇重叠的 BLEU 更能与人类评估相匹配，同时具有泛化评估不同模型的能力。

Aug, 2017

通过多样化参考信息增强提高开放域对话自动评估

本文提出了一种新技术，即自动将人工生成的参考文本扩展为一组备选参考文本的技术，该技术通过从知识源中获取可信的文本响应并对其进行调整，以使其在当前对话情境中更加符合逻辑，说明其方法可以显著提高与人工系统输出评级的自动指标的相关性。

Jun, 2021

学习检索有吸引力的后续查询

本文提出了一种基于检索的系统和相关数据集，用于预测用户可能有的下一个问题，可以主动地帮助用户进行知识探索，引导用户进行更有意义的对话。该检索系统是在一个包含 14000 多组信息获取对话的数据集上进行训练的，该数据集包含一个有效的后继问题和一组无效候选问题。我们在 Follow-up Query Bank 数据集上训练了排名模型，并比较了监督和无监督方法的结果。结果表明，我们可以通过将有效后继问题排在更高的位置上进行检索，但进一步的知识构建可以提高排名性能。

Feb, 2023