面向任务导向对话系统的语境数据增强
本文提出了一种框架,该框架将增强版本的对话上下文纳入学习目标,并利用对比学习作为辅助目标,学习鲁棒的上下文表示,以应对推断期间出现的自然扰动。实验证明,该框架与现有的增强方法相结合,可以显著改善基于 BERT 的排名体系结构,并提供更具鲁棒性的对话表示。此外,我们提出了一种新的数据增强方法 ConMix,该方法通过从批处理中的其他上下文中随机混合 token,为对话添加 token 级扰动,优于以前的数据增强方法。
Apr, 2022
本论文探讨了在缺少数据资源的情况下,利用预先训练好的语言模型进行对话理解中的数据增强的问题,并提出了一种利用弱监督滤波器迭代增强质量的新方法。实验结果表明,在 DailyDialog 和 Facebook 多语言任务导向对话的情感、行为和意图分类任务上使用少量数据作为辅助训练集,可以达到或超过现有的最佳性能。
Oct, 2022
本文通过使用 context 动态提示的方法,改善了在多轮任务指向对话系统中的通用响应生成。在 MultiWOZ 2.2 数据集上验证后,相较于仅进行的前缀手段,综合值得分提高了 3 个绝对点,同时还将状态对话的提升幅度加大了 20 个绝对点。
Jan, 2023
我们提出了一种基于知识驱动的渐进性思维引导方法来生成多轮心理对话,该方法整合了渐进式思维生成器、心理知识生成器和多轮对话生成器,验证了在心理对话领域提升性能的有效性。
Jun, 2024
该研究通过四种自动方法在单词和句子级别上增强数据,提高目标导向对话模型的数据效果,并在两个数据集上进行实验,结果表明四种数据扩充方法在 Success F1 score 方面均能显著提高。进一步分析确认,增加用户话语的多样性可以使端到端模型学习特征更为稳健。
Dec, 2019
本研究针对面向任务对话系统中语言理解的数据增强问题,提出了基于序列到序列生成的数据增强框架来提高模型的性能,该框架利用训练数据中某个话语的同义替代品来增强数据,将多样性排名纳入话语表示中,生成多样性增加的话语,实验证明在仅有数百个话语的情况下,在 Airline Travel Information System 数据集和 Stanford Multi-turn,Multidomain Dialogue 数据集上都取得了显著的 6.38 和 10.04 分数提高。
Jul, 2018
本文提出了一种数据增强方法以及筛选技术来增加开放域对话系统数据集中不同语义的高质量回复,通过对事实的推理来推断出具有不同语义的回复,并过滤掉有害的增强回复,实验结果表明,该方法可以在多个下游任务中胜过竞争基线。
Oct, 2022
该研究提出了一种基于替换词增强的响应生成 (PARG) 框架,该框架联合训练了一个替换模型和一个响应生成模型,以提高对话生成的性能,并通过对话状态和对话行为标签自动构建替换培训数据集。实验结果表明,所提出的框架进一步改善了 CamRest676 和 MultiWOZ 上最先进的对话模型,并在对话生成任务中显着优于其他数据增强方法,特别是在资源不足的情况下。
Apr, 2020
通过利用大规模语言模型如 ChatGPT,我们探索了基于提示的数据增强方法,用于产生合成的平行语料库,比较了三种不同提示的方法,并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本,与后向翻译等其他增强方法相比,提高了未增强基线的 0.68 BLEU 分数。
Jul, 2023