TaskDiff: 一种针对任务导向对话的相似度度量

EMNLPOct, 2023

TaskDiff: 一种针对任务导向对话的相似度度量

TaskDiff: A Similarity Metric for Task-Oriented Conversations

Ankita Bhaumik, Praveen Venkateswaran, Yara Rizk, Vatche Isahagian

TL;DR构建使用 ChatGPT 等大型语言模型的对话式数字助手需要更多关注于提示工程和评估方法。文本相似度度量是这些分析和评估的关键要素。然而，现有的相似度度量方法不能有效地用于面向任务的对话，因为它们没有利用独特的对话特征。为了解决这一问题，我们提出了 TaskDiff，一种新颖的对话相似度度量方法，利用对话组成部分（话语、意图和插槽）及其分布来计算相似度。对基准数据集上 TaskDiff 进行了广泛的实验评估，结果表明其性能优越，并在其他相关方法上具有改进的鲁棒性。

Abstract

The popularity of conversational digital assistants has resulted in the availability of large amounts of conversational data which can be utilized for improved user experience and →

conversational digital assistants user experience personalized response generation prompt engineering task-oriented conversations

发现论文，激发创造

我们曾经有过这样的对话：测量对话相似性的新方法

本文提出了一种用于评估对话相似性的编辑距离指标，该指标考虑到了对话的诸多方面，如话语语义，对话流程和参与者，并证明了其在捕捉对话流程和与人类对话相似性方面的优势。

Oct, 2021

评估自然语言生成的任务导向对话中无监督度量的相关性

本文考察了在 task-oriented 对话回复生成中是否能够使用 Automated metrics 如 BLEU 准确度较高地评估生成结果。研究表明这些自动化评价指标与人类判断在 task-oriented 环境中的相关性较高，更适合适用于提供多个参考数据的数据集。同时，本文倡导更具挑战性的数据集的建构。

Jun, 2017

基于主题的对话机器人评估

使用基于话题的度量标准来评估对话质量，包括考虑对话机器人在话题上维持连贯和有吸引力的对话能力及其多样性，并采用深度平均网络和话题分类器检测每个话语的对话话题，进一步引入话题关注表以捕捉话语中的话题关键字以及执行话题分类。经过与用户提供的评分进行比较，研究表明这些度量标准既与人类判断相关又补充人类判断，并且在亚历山大奖竞赛中对数万个真实人 - 机器人对话进行分析，凸显出用户对话机器人的期望。

Jan, 2018

在任务导向对话中加入闲聊的比较研究：基于词汇多样性和差异性

本论文通过比较分析三种闲聊增强方法，旨在确定多样性方面最有效的方法。此外，我们量化了增加的闲聊、原始任务导向语言和闲聊数据集中典型闲聊之间的差异，突出每个比较中的前 20 个差异关键词。我们的研究结果为增强任务导向对话提供了未来改进的讨论，强调了超越任务的对话基础对实现更多样化和自然化的交流的重要性。

Nov, 2023

风格转移和改写：寻找合理的语义相似性度量

本文分析了超过十余种测量两个短文本的语义相似性的方法，并使用一个新的标记为语义相似性的 14,000 句子数据集证明文献中使用的这些度量标准都不能够足够接近人的判断。虽然有一些最近提出的度量标准提供了具有可比性的结果，但 Word Mover Distance 被证明是目前测量改写文本的语义相似性的最合理的解决方案。

Apr, 2020

面向人的对话系统评估指标

提出基于心理学，对话系统评估的度量标准，包括情感熵、语言风格和情感匹配度、宜人性和共情等 5 个指标。将这些指标与 6 个最先进的自动评价指标进行比较，并使用三种不同模型（ChatGPT、GPT-3 和 BlenderBot）的对话数据集进行实验，结果表明，所提出的人类度量标准不仅提供了新颖的信息，而且与自动度量标准不相关，并且优于现有的自动度量标准在预测众包对话评价方面的准确性。所提出的基于人类中心的框架具有解释性和独特的信号，是评估和改进对话系统的有价值的工具。

May, 2023

基于任务导向和非任务导向的口语对话系统结合的智能助理对话检测

研究智能助手是否可以匹配用户的聊天意图，构建了新的数据集以及使用推特和 Web 搜索查询来处理无特定领域的用户发言，实验结果表明，使用 tweets 和 Web 搜索查询可以进一步提高智能助手的 F1 分数。

May, 2017

多语言任务导向对话系统中性能差异的系统研究

多语言自然语言处理中任务导向对话系统性能差异的经验分析和洞察，以及新语言中 ToD 数据收集和系统开发的实用建议。

Oct, 2023

DreamSim：使用合成数据学习人类视觉相似性的新维度

本文提出了一个全新的知觉度量标准 DreamSim，通过人类相似度判断数据集的研究得出，该标准可以全面评估图片的相似性，更关注于前景物体和语义内容及对颜色和布局敏感，并且具有很好的一般性能。

Jun, 2023

PairEval：使用配对比较进行开放域对话评价

提出了一种基于对话响应之间的比较评估的对话评估度量方法 PairEval，该度量方法比基准度量方法更具鲁棒性，并且与人类判断的相关性更高。

Apr, 2024