使用对比预训练和对抗过滤的强健任务导向对话生成
本研究旨在研究 Annotation Artifacts 在大型预先训练的 NLP 模型中的表现,分析其在自然语言推断任务中的限制、通过数据增强技术解决注释工件所引起的偏差,以及评估该方法的有效性。
Feb, 2023
本论文探讨了在缺少数据资源的情况下,利用预先训练好的语言模型进行对话理解中的数据增强的问题,并提出了一种利用弱监督滤波器迭代增强质量的新方法。实验结果表明,在 DailyDialog 和 Facebook 多语言任务导向对话的情感、行为和意图分类任务上使用少量数据作为辅助训练集,可以达到或超过现有的最佳性能。
Oct, 2022
本文提出了基于 GPT-2 微调多领域 MetaLWOz 数据集的混合生成 - 检索模型,具有稳健、多样的响应生成能力,在领域自适应任务中取得了最优结果,并在适应未见过的 MultiWOZ 数据集时表现出竞争力的泛化性能。
Mar, 2020
本文介绍了一种基于 MetaLWOz 数据集的知识迁移技术,实现在少量样本下训练对话系统的方法,并在多个领域的人机对话中达到了最先进的结果,同时也不需要任何标注数据。
Aug, 2019
本文提出了一种数据操纵框架来通过增强和突显有效的学习样本以及同时减少无效样本的影响来主动重塑数据分布,以优化对话生成模型的训练样本。通过选择性地增加训练样本并为每个实例分配重要性权重来转换训练数据。结果表明,该框架能够改善对话生成性能,符合各种自动评估指标和人类判断。
Apr, 2020
本文针对任务导向的对话系统中的意图识别和参数标记存在的过度敏感问题,介绍了构建对抗性测试集和采用对抗性训练方法和数据增强来提高模型健壮性的解决方案。实验结果表明,这些技术的组合能显著提高系统的健壮性。
Nov, 2019
采用基于熵的方法,从对话数据集中过滤通用语句,以改善聊天机器人生成开放式回复时的多样性。通过 17 种评估指标的比较,我们证明使用经过此种过滤的数据集训练对话模型可以提高对话质量。
May, 2019
本文研究了提高生产质量的面向任务的对话系统的设计的困难,提出了使用自然语言的轻量级语义表示 —— 规范形式作为用户意图分类的替代方法,并且展现了规范形式可以很好地泛化到新的、未知的域,在零次或少次样本学习中可以轻易实现,并且可以降低开发新的任务导向的对话域的复杂性和费用。
Nov, 2022
在交通标志识别领域中,我们提出了一种改进对抗鲁棒性的新方法,通过重新定义标准并进行微小的变化来抵御对抗样本。与最先进的方法相比,我们的方法在两种攻击类型下,以及对于良性输入,显著提高了鲁棒准确率,达到高达 25.18%的提升。
Feb, 2024