对话蒸馏：使用非成对数据进行开放领域对话增强

EMNLPSep, 2020

对话蒸馏：使用非成对数据进行开放领域对话增强

Dialogue Distillation: Open-Domain Dialogue Augmentation Using Unpaired Data

Rongsheng Zhang, Yinhe Zheng, Jianzhi Shao, Xiaoxi Mao, Yadong Xi...

TL;DR本研究提出了一种使用未配对数据进行数据扩充的新方法，包括数据层次和模型层次的蒸馏过程，结果表明此方法可以提高对话系统的性能。

Abstract

Recent advances in open-domain dialogue systems rely on the success of neural models that are trained on large-scale data. However, collecting large-scale dialogue data is usually time-consuming and labor-intensive. To address this data dilemma, we propose a novel →

open-domain dialogue systems neural models data augmentation data-level and model-level distillation dialogue models

发现论文，激发创造

BERT 无监督领域自适应的知识蒸馏

利用 BERT 预训练语言模型，结合领域适应性方法和知识蒸馏算法，提出了一种简单而有效的无监督领域适应方法，称为对抗适应与蒸馏，在 30 个领域对跨领域情感分类的任务中取得了最先进的性能。

Oct, 2020

使用领域针对性数据增强来提升知识蒸馏的鲁棒性

本文介绍了一种基于知识蒸馏的方法和使用语言模型创建任务特定无标签数据增强来提高模型在 NLI 任务中的性能，在 out-of-distribution 方面的表现超过以前的方法。通过 Distilled Minority Upsampling 来鲁棒性提高了 SNLI-hard 的表现。

May, 2023

基于视角转换的反事实数据增强方法在开放域对话中的应用

本文提出了一种数据增强方法以及筛选技术来增加开放域对话系统数据集中不同语义的高质量回复，通过对事实的推理来推断出具有不同语义的回复，并过滤掉有害的增强回复，实验结果表明，该方法可以在多个下游任务中胜过竞争基线。

Oct, 2022

通过提示进行弱监督的对话理解数据增强

本论文探讨了在缺少数据资源的情况下，利用预先训练好的语言模型进行对话理解中的数据增强的问题，并提出了一种利用弱监督滤波器迭代增强质量的新方法。实验结果表明，在 DailyDialog 和 Facebook 多语言任务导向对话的情感、行为和意图分类任务上使用少量数据作为辅助训练集，可以达到或超过现有的最佳性能。

Oct, 2022

无监督的可解释解缩表示学习用于远程对话语音识别适应

该论文提出了一种新颖的无监督自适应方法，通过学习利用目标领域的无标签数据和标记的领域外数据，合成标记数据，从而解决自然语言处理中对于各种语言和领域进行自然语言处理的需求。

Jun, 2018

学习增强技术以提高数据缺乏领域的 BERT 知识蒸馏

该论文提出一种基于交叉领域数据增强的 BERT 知识蒸馏方法，借助资源丰富的源域来自动优化增强策略和提高学生模型性能，实验证明该方法优于现有方法，且在数据稀缺领域中，即使只有少量标记样本，压缩后的学生模型性能也能优于原始的大型教师模型。

Jan, 2021

面向任务导向对话系统的语境数据增强

我们开发了一种新型的对话扩充模型，通过完整的对话上下文生成用户的回合，并通过语言模型的新提示设计和输出重新排序，所生成对话可直接用于训练下游对话系统，在常见的基准数据集 MultiWoZ 和 SGD 上，展示了我们的对话扩充模型生成高质量对话并使对话成功率较基准线提高多达 8%。

Oct, 2023

构建情感共识并利用非配对数据进行共情式对话生成

本文提出了一种双重生成模型（Dual-Emp），通过集成前向对话模型、后向对话模型和表示情感共识的离散潜变量来实现情感共识的构建，同时利用来自开放域对话的非成对情感数据，产生了比人类注释更高效且成本更低的伪成对共情样本，进而在自动和人工评估中表现出优异的编织性和共情响应。

Sep, 2021

使用风格化非成对文本生成风格化对话回应

本研究提出一种基于逆向对话模型和风格路由方法的对话生成技术，能够捕捉嵌入在不成对文本中的风格特征，产生既符合给定上下文又符合目标风格的对话回复，实验表明方法能够胜过竞争性对话系统在产生连贯、风格强烈的对话回复方面的表现。

Sep, 2020

端到端任务导向对话的有效数据增强方法

该研究通过四种自动方法在单词和句子级别上增强数据，提高目标导向对话模型的数据效果，并在两个数据集上进行实验，结果表明四种数据扩充方法在 Success F1 score 方面均能显著提高。进一步分析确认，增加用户话语的多样性可以使端到端模型学习特征更为稳健。

Dec, 2019