对话响应生成的局部解释
本文研究对话响应生成系统的评估指标,其中没有可用的监督标签。最近,对话响应生成的研究采用了机器翻译的指标来比较模型生成的响应和单个目标响应。我们展示了这些指标与非技术Twitter领域中的人类判断之间的关系非常弱,而在技术Ubuntu领域中根本没有。我们提供了定量和定性结果,突出了现有指标的特定弱点,并提供了未来开发更好的自动评估指标的建议。
Mar, 2016
本文考察了在task-oriented对话回复生成中是否能够使用Automated metrics如BLEU准确度较高地评估生成结果。研究表明这些自动化评价指标与人类判断在task-oriented环境中的相关性较高,更适合适用于提供多个参考数据的数据集。同时,本文倡导更具挑战性的数据集的建构。
Jun, 2017
本研究发展了一种融合了两种不同方法的模型,能够检索出机器人回答,并将其作为附加语境进行精细调节,从而产生了更准确、更生动、更吸引人的回答。在最近的 CONVAI2 挑战评估中,该模型在人类评估中明显优于传统的检索和生成模型。
Aug, 2018
该研究分析了基于序列到序列学习的生成回复任务的神经模型容易产生短而通用回复的问题,并通过分解黑匣子,详细分析了概率极限问题并提出了最大间隔排名正则化方法来避免模型偏向于这些回复,并通过实证实验验证了该方法的有效性。
Aug, 2018
本文旨在探讨人机交互中提供合理的解释是何等富有挑战性的,以及如何在生成自然语言解释时克服知识的多种抽象形式及推理。我们通过自动化新颖的数据收集方式构建了一种序列到序列的自然语言生成模型,并证明该方式相比其他方式能够更好地解释开放域现象。
Jun, 2019
本研究针对现有开放领域对话生成模型无法合理组织多个语义相近的回复而导致生成通用、无信息量的回答的问题,提出在潜在空间上进行回归任务的代替方案,通过学习提示和回答之间的成对关系,使语义相关的句子在潜在空间上靠近。人类评估表明,在连续空间上学习任务可以生成相关且信息丰富的回复。
Oct, 2020
本文提出了 DialogBERT,这是一种新型的对话响应生成模型,通过使用分层Transformer架构和两个训练目标,包括掩码语调回归和分布式语调顺序排名来提高先前基于PLM的对话模型,在三个多轮对话数据集上进行实验证明,相比于BART和DialoGPT,DialogBERT在定量评估方面表现出色,并且在人类评估中证明,DialogBERT比基线模型生成的响应更连贯、信息量更大,并更加接近人类表现。
Dec, 2020
本文提出一种联合框架,用于改善多轮对话中回复生成的表现。这种框架结合了阅读理解任务和回复生成任务,共享相同的编码器来提取共同且与任务无关的特征和不同的解码器来学习任务特定的特征。用记忆更新器增强Transformer体系结构以更好地将问题和对话历史的信息融合在编码部分,并在大规模对话阅读理解数据集上进行了实验,结果显示该模型对于两个任务都带来了显著的改进。
Dec, 2020
该研究旨在通过探究响应生成模型对常识推理的理解程度以诱发适当的响应来缩小当前响应生成模型和人类沟通能力之间的差距,探测 RG 模型的常识推理能力并提出了两个探针设置来评估 RG 模型的常识推理功能。结果表明,模型无法捕获常识解释和响应之间的逻辑关系,领域内数据的微调和增加模型规模并不能带来对 CSR 的理解,这一研究有望激励更多的研究使 RG 模型效仿人类推理过程以实现流畅的人工智能交流。
Apr, 2021