DialoGPT 对话交互的无监督评估
本文介绍了一种基于多维度的对话级度量方法,由三个子度量组成,对每个子度量使用新颖的自监督方法进行训练,通过指标组合和多任务学习的方式,综合度量显著优于单一子度量。
Oct, 2022
本论文提出了一种新的评估指标 GRADE,通过考虑话题转移的动态和话题层面的图形表示,结合粗粒度的话语层面的上下文表示来评估对话的连贯性,从而较好地衡量了各种对话模型的性能并提高了人机相关度。
Oct, 2020
本文研究对话响应生成系统的评估指标,其中没有可用的监督标签。最近,对话响应生成的研究采用了机器翻译的指标来比较模型生成的响应和单个目标响应。我们展示了这些指标与非技术 Twitter 领域中的人类判断之间的关系非常弱,而在技术 Ubuntu 领域中根本没有。我们提供了定量和定性结果,突出了现有指标的特定弱点,并提供了未来开发更好的自动评估指标的建议。
Mar, 2016
这篇论文对 23 种不同的自动评估度量在 10 个不同的数据集上进行了评估,并在不同的设置中对其进行了评估,从而更好地确定它们各自的优缺点。综合评估提供了关于对话评估指标的几个认识,为未来的研究提供了有用的指导。
Jun, 2021
近期人机交互领域的研究表明,考虑到人口统计信息、用户情感以及从话语中的隐含反馈中学习是任务导向和以文档为基础的对话系统获得用户接受和喜欢的关键。然而,这些发现尚未在自然语言处理领域得到应用,缺乏相应的数据集。为了填补这一空白,我们引入了 FEDI,这是第一个包含任务导向的以文档为基础的对话的英语数据集,其中注释了人口统计信息、用户情感和隐含反馈。我们使用 FLAN-T5、GPT-2 和 LLaMA-2 进行实验,结果表明这些数据有潜力改善任务完成情况、生成回答的事实一致性以及用户接受程度。
Jan, 2024
本文提出了一种基于预训练语言模型从句子中提取潜在表示并利用它们之间的时间关系进行对话质量评估的自动评估度量标准,不需要人工生成参考回复并在推理过程中不需要真实响应。在在线环境中,该模型与人类评注的相关性更高。
May, 2020
提出基于心理学,对话系统评估的度量标准,包括情感熵、语言风格和情感匹配度、宜人性和共情等 5 个指标。将这些指标与 6 个最先进的自动评价指标进行比较,并使用三种不同模型(ChatGPT、GPT-3 和 BlenderBot)的对话数据集进行实验,结果表明,所提出的人类度量标准不仅提供了新颖的信息,而且与自动度量标准不相关,并且优于现有的自动度量标准在预测众包对话评价方面的准确性。所提出的基于人类中心的框架具有解释性和独特的信号,是评估和改进对话系统的有价值的工具。
May, 2023
通过对三类自动评估方法的系统比较,本文认为基于学习的指标是评估开放领域生成对话系统最有效的方法。为了解决由于负采样机制导致的数据集不平衡和低质问题,本文提出了一种新的基于学习的评估指标 PONE,并经过实验证明,在使用增强的正样本和有价值的负样本后,可以显著提高与人类判断的相关性,平均相关性提高达 13.18%。
Apr, 2020
本文考察了在 task-oriented 对话回复生成中是否能够使用 Automated metrics 如 BLEU 准确度较高地评估生成结果。研究表明这些自动化评价指标与人类判断在 task-oriented 环境中的相关性较高,更适合适用于提供多个参考数据的数据集。同时,本文倡导更具挑战性的数据集的建构。
Jun, 2017