重新评估ADEM：对对话响应评分的深入研究

Feb, 2019

重新评估ADEM：对对话响应评分的深入研究

Re-evaluating ADEM: A Deeper Look at Scoring Dialogue Responses

Ananya B. Sai, Mithun Das Gupta, Mitesh M. Khapra, Mukundhan Srinivasan

TL;DR本文讨论了如何利用对抗性攻击来操纵ADEM（Automatic Dialogue Evaluation Metric）模型，实现人工智能的对话生成系统的自动化评价。

Abstract

Automatically evaluating the quality of dialogue responses for unstructured domains is a challenging problem. adem(Lowe et al. 2017) formulated the →

发现论文，激发创造

神经对话生成的对抗学习

本文提出了一种基于对抗训练的方法用于生成开放领域对话，该系统的对话和人类对话几乎无法区分。作者将问题转化为一个强化学习问题，同时训练一个生成模型和一个鉴别器，用于评估生成的对话是否和人类对话相似，并将鉴别器的输出作为奖励信号，并进一步提出了一种评估模型 - 对抗性评估模型，该模型可避免一系列潜在的问题。实验结果表明，基于对抗训练的系统生成的响应比先前的基线模型更具参考价值。

Jan, 2017

对话模型的对抗性评估

研究了使用对抗性损失来评估对话系统生成的对话回复的可行性。通过训练 RNN 区分模型生成的样本和人类生成的样本，发现该方法可能可行，但实际应用中仍存在许多问题。

Jan, 2017

迈向自动图灵测试：学习对话响应评估

提出 ADEM 模型用于对话质量的学习式自动评估，其比基于词汇重叠的 BLEU 更能与人类评估相匹配，同时具有泛化评估不同模型的能力。

Aug, 2017

通过响应选择评估对话生成系统

本研究提出了一种构建响应选择测试集以进行系统评估的方法，通过过滤不相关的和可接受的候选者，实验表明此方法比BLEU等自动评估指标更能与人类评估相关联。

Apr, 2020

通过多引用对抗数据集和大规模预训练来改善对话评估

为了更好地训练和评估基于模型的度量方法，我们引入了DailyDialog++数据集，并提出了一种新的基于BERT的度量方法DEB，该方法预训练与Reddit对话中并且对我们的数据集进行了微调。DEB的性能显著优于现有模型，并表现出更好的与人类判断的相关性和更好的随机负例性能，但在对抗性响应的评估中性能显著下降。

Sep, 2020

生成对抗性负面回复以提升响应排名与评估的鲁棒性

发展神经对话模型需要超越“内容相似性”，本文提出用对抗性负面样本提高模型的实用性。实验表明，我们的方法在多个数据集上均表现优异。

Jun, 2021

探究面向对话系统的训练度量的鲁棒性

本文介绍一种对话系统对话回复的鲁棒性测试方法，利用对抗学习方法提取出优化得分的回复策略，并利用该方法测试最近提出的训练度量标准，发现它们均容易将相对简单且明显存在缺陷的策略高分，如直接复制对话环境中的部分内容拼成回复竟然可以超越甚至优于人类翻译的水平。

Feb, 2022

开放域对话响应选择的系统评估

本研究对开源聊天机器人的多种回复生成方法进行了系统评估，提出了利用手动注释筛选出的多个正向回复和负向回复，从而提高模型效果的新训练数据，并实验证明性能较之采用对抗训练数据有更显著提升。

Aug, 2022

大型语言模型作为自动对话评估器的有效性综合分析

自动对话评估的研究中，大型语言模型、神经度量指标以及元评估数据集的应用，以及模型层次和维度层次的集成对评估性能的影响进行了全面的研究。

Dec, 2023

结构化信息的重要性：将抽象意义表示引入到LLMs中以提高开放域对话评估

我们提出了一个简单而有效的开放域对话评估框架，通过将领域特定语言模型（SLMs）与LLMs结合起来，明确地通过门控机制将对话的抽象意义表示（AMR）图信息融入到LLM的提示中，以提高上下文学习性能，并在开放域对话评估任务中的实验结果证明了我们方法在区分对抗性负面回应方面的优越性。

Apr, 2024