面向对话语言理解的序列到序列数据增强

COLINGJul, 2018

面向对话语言理解的序列到序列数据增强

Sequence-to-Sequence Data Augmentation for Dialogue Language Understanding

Yutai Hou, Yijia Liu, Wanxiang Che, Ting Liu

TL;DR本研究针对面向任务对话系统中语言理解的数据增强问题，提出了基于序列到序列生成的数据增强框架来提高模型的性能，该框架利用训练数据中某个话语的同义替代品来增强数据，将多样性排名纳入话语表示中，生成多样性增加的话语，实验证明在仅有数百个话语的情况下，在 Airline Travel Information System 数据集和 Stanford Multi-turn，Multidomain Dialogue 数据集上都取得了显著的 6.38 和 10.04 分数提高。

Abstract

In this paper, we study the problem of data augmentation for language understanding in task-oriented dialogue system. In contrast to previous work which augments an utterance without considering its relation with

data augmentation language understanding task-oriented dialogue system sequence-to-sequence generation diverse utterances

发现论文，激发创造

面向任务导向对话系统的语境数据增强

我们开发了一种新型的对话扩充模型，通过完整的对话上下文生成用户的回合，并通过语言模型的新提示设计和输出重新排序，所生成对话可直接用于训练下游对话系统，在常见的基准数据集 MultiWoZ 和 SGD 上，展示了我们的对话扩充模型生成高质量对话并使对话成功率较基准线提高多达 8%。

Oct, 2023

使用预训练语言模型进行口语理解的数据增强

本研究提出了一种数据增量方法，利用预训练语言模型提高生成话语的变异性和准确性，同时探讨和提出了两种在 SLU 中被忽视的半监督学习情况的解决方案。实证结果表明，我们的方法可以生成合成训练数据，在各种情况下提高了语言理解模型的性能。

Apr, 2020

端到端任务导向对话的有效数据增强方法

该研究通过四种自动方法在单词和句子级别上增强数据，提高目标导向对话模型的数据效果，并在两个数据集上进行实验，结果表明四种数据扩充方法在 Success F1 score 方面均能显著提高。进一步分析确认，增加用户话语的多样性可以使端到端模型学习特征更为稳健。

Dec, 2019

使用即时数据增强技术改进序列到序列语音识别训练

本文研究了三种数据增强方法在两种序列到序列模型中对性能的影响，发现通过数据增强可以有效缓解过拟合问题并提高自动语音识别的性能。

Oct, 2019

序列级混合样本数据增强

该研究提出了一种简单的数据增强方法 SeqMix，用于鼓励神经模型针对序列问题的组合行为，该方法可以使神经网络捕获自然语言中的组合特征，旨在提高机器翻译和语义分析等任务的性能。

Nov, 2020

序列到序列的预训练与数据增强技术在句子重写中的应用

该文研究了使用数据增强的序列到序列预训练在句子重写方面的应用。在使用增强数据和金标准数据训练序列到序列模型时，我们采用分阶段训练方法。实验结果表明，该方法显著提高了句子重写任务的性能，并在 GEC 和 FST 上达到了最先进的结果。

Sep, 2019

面向对话生成的选择性数据增强学习

介绍一种选择性数据增强框架（SDA），它利用对抗网络选择哪些数据点适合用于增强神经对话模型的性能，从而改善响应生成性能。

Mar, 2023

基于分段增强的语音翻译数据效用最大化（SegAugment）

提出了一种名为 SegAugment 的数据增强方法，通过音频分割系统重新分割每个文档的语音，以获取多个目标文本，并得到多个和不同的句子级视图，实现了语音翻译中的数据增强，平均 BLEU 分数增加了 2.2 个点，并且在低资源场景下增加了 4.7 个 BLEU 点。

Dec, 2022

基于视角转换的反事实数据增强方法在开放域对话中的应用

本文提出了一种数据增强方法以及筛选技术来增加开放域对话系统数据集中不同语义的高质量回复，通过对事实的推理来推断出具有不同语义的回复，并过滤掉有害的增强回复，实验结果表明，该方法可以在多个下游任务中胜过竞争基线。

Oct, 2022

通过提示进行弱监督的对话理解数据增强

本论文探讨了在缺少数据资源的情况下，利用预先训练好的语言模型进行对话理解中的数据增强的问题，并提出了一种利用弱监督滤波器迭代增强质量的新方法。实验结果表明，在 DailyDialog 和 Facebook 多语言任务导向对话的情感、行为和意图分类任务上使用少量数据作为辅助训练集，可以达到或超过现有的最佳性能。

Oct, 2022