探究面向对话系统的训练度量的鲁棒性

Feb, 2022

探究面向对话系统的训练度量的鲁棒性

Probing the Robustness of Trained Metrics for Conversational Dialogue Systems

Jan Deriu, Don Tuggener, Pius von Däniken, Mark Cieliebak

TL;DR本文介绍一种对话系统对话回复的鲁棒性测试方法，利用对抗学习方法提取出优化得分的回复策略，并利用该方法测试最近提出的训练度量标准，发现它们均容易将相对简单且明显存在缺陷的策略高分，如直接复制对话环境中的部分内容拼成回复竟然可以超越甚至优于人类翻译的水平。

Abstract

This paper introduces an adversarial method to stress-test trained metrics to evaluate conversational dialogue systems. The method leverag

conversational dialogue systems trained metrics adversarial method reinforcement learning response strategies

发现论文，激发创造

通过多引用对抗数据集和大规模预训练来改善对话评估

为了更好地训练和评估基于模型的度量方法，我们引入了 DailyDialog++ 数据集，并提出了一种新的基于 BERT 的度量方法 DEB，该方法预训练与 Reddit 对话中并且对我们的数据集进行了微调。DEB 的性能显著优于现有模型，并表现出更好的与人类判断的相关性和更好的随机负例性能，但在对抗性响应的评估中性能显著下降。

Sep, 2020

自动机器翻译度量指标的鲁棒性测试与对抗攻击

我们研究了对抗性合成文本上的机器翻译评估指标的性能，以阐明指标的稳健性。我们对三个流行的机器翻译指标（BERTScore、BLEURT 和 COMET）进行了单词级和字符级的攻击实验。我们的人工实验验证了自动指标倾向于过度惩罚对抗性降级翻译。我们还发现了 BERTScore 评级的不一致性，在判断原始句子和对抗性降级句子相似的同时，将降级翻译与参考文献相比较，判断其比原始句子明显更差。我们确定了一些脆弱性模式，从而推动更稳健的指标开发。

Nov, 2023

通过对抗示例评估会话推荐系统的鲁棒性

本文介绍了一个对话推荐系统（CRSs）的鲁棒性评估方案，其中自动生成敌对样本以评估系统在不同输入数据面前的鲁棒性。通过执行这些敌对样本，我们可以比较不同 CRSs 满足用户偏好的能力，并表明测试的三个 CRSs 都不够稳健和可靠。

Mar, 2023

如何不评估您的对话系统：对话响应生成任务无监督评估指标的实证研究

本文研究对话响应生成系统的评估指标，其中没有可用的监督标签。最近，对话响应生成的研究采用了机器翻译的指标来比较模型生成的响应和单个目标响应。我们展示了这些指标与非技术 Twitter 领域中的人类判断之间的关系非常弱，而在技术 Ubuntu 领域中根本没有。我们提供了定量和定性结果，突出了现有指标的特定弱点，并提供了未来开发更好的自动评估指标的建议。

Mar, 2016

评估和比较开放域对话系统

本文提出了一种全面的评估策略，与人类判断相关的几个指标是构建无目标对话系统的关键，此方法可促进对话型 AI 的自动化评估过程。

Jan, 2018

一种适用所有语言的 “统治者”: 基于对抗多任务学习的多语言对话评价

提出了一种跨语言对话评估的 ADVMT 模型，利用神经网络指标对开放域对话系统的表现进行评估，并在两种不同语言的情况下进行评估，结果显示其与人工评估的相关性高于现有指标。

May, 2018

基于主题的对话机器人评估

使用基于话题的度量标准来评估对话质量，包括考虑对话机器人在话题上维持连贯和有吸引力的对话能力及其多样性，并采用深度平均网络和话题分类器检测每个话语的对话话题，进一步引入话题关注表以捕捉话语中的话题关键字以及执行话题分类。经过与用户提供的评分进行比较，研究表明这些度量标准既与人类判断相关又补充人类判断，并且在亚历山大奖竞赛中对数万个真实人 - 机器人对话进行分析，凸显出用户对话机器人的期望。

Jan, 2018

DSTC 11 跟踪器 4：开放域对话系统鲁棒性和多语言自动评估指标综述

本文提出神经网络和自动评估方法在对话系统中的应用，特别关注 DSTC11 的自动评估度量标准和结果。

Jun, 2023

面向人的对话系统评估指标

提出基于心理学，对话系统评估的度量标准，包括情感熵、语言风格和情感匹配度、宜人性和共情等 5 个指标。将这些指标与 6 个最先进的自动评价指标进行比较，并使用三种不同模型（ChatGPT、GPT-3 和 BlenderBot）的对话数据集进行实验，结果表明，所提出的人类度量标准不仅提供了新颖的信息，而且与自动度量标准不相关，并且优于现有的自动度量标准在预测众包对话评价方面的准确性。所提出的基于人类中心的框架具有解释性和独特的信号，是评估和改进对话系统的有价值的工具。

May, 2023

对话中的相关性：简单优于复杂的度量标准比较与新度量标准

评估了现有的对话相关性度量标准，提出了减少数据要求和领域敏感性的改进并在不 fine-tuning 预训练语言模型的情况下，只使用 3750 个未经注释的人类对话和一个负面例子，我们的提议指标实现了 HUMOD dataset 的最新性能，并将数据集敏感性降低了 37％-66％。

Jun, 2022