联合变分生成增强口语理解数据

AAAISep, 2018

Data Augmentation for Spoken Language Understanding via Joint Variational Generation

Kang Min Yoo, Youhyun Shin, Sang-goo Lee

TL;DR本文提出了一种新的生成架构，旨在借助潜在变量模型的生成能力来共同合成完全注释的话语，并经过实验验证，通过人工合成数据集来训练 SLU 模型，在不同数据集和模型中获得了性能提升。

Abstract

Data scarcity is one of the main obstacles of domain adaptation in spoken language understanding (SLU) due to the high cost of creating manually tagged SLU datasets. Recent works in neural text generative models,

spoken language understanding domain adaptation neural text generative models latent variable models synthetic dataset

发现论文，激发创造

使用预训练语言模型进行口语理解的数据增强

本研究提出了一种数据增量方法，利用预训练语言模型提高生成话语的变异性和准确性，同时探讨和提出了两种在 SLU 中被忽视的半监督学习情况的解决方案。实证结果表明，我们的方法可以生成合成训练数据，在各种情况下提高了语言理解模型的性能。

Apr, 2020

利用多组噪声扩充数据进行跨语言口语理解的学习

本文提出了一种通过机器学习方法处理低资源语言中语音理解数据的方法，通过多个模型同时对不同扩充的训练数据对彼此提供监督信号，实现了对数据的去噪处理，在两个基准数据集上的实验结果表明，我们的方法优于现有技术达 3.05% 和 4.24% 的性能表现。

Sep, 2021

对话系统中低资源自然语言生成的双潜变量模型

本文提出了一种基于变分神经网络的自然语言生成模型，用于解决受限标记数据集的自然语言生成问题，并通过引入变分推理和辅助自编码器与有效的训练程序来提高模型性能。实验表明，该模型不仅在有足够训练数据时优于以前的模型，而且在数据稀缺情况下也表现出良好的能力。

Nov, 2018

基于基础模板的口语语言理解数据增强

本文提出了一种基于原子模板的数据增强方法和编码器 - 解码器模型解决语音理解中数据稀缺问题和域适应问题。实验结果表明我们的方法在 DSTC 2&3 数据集上取得了显著的改进。

Aug, 2019

为语音生成与转换学习潜在表征

使用变分自编码器实现了对自然语音生成过程的建模与学习，获得了较大突破。利用学习的潜在空间算术操作，实现了对语音的音素内容或说话人身份的无监督修改，无需平行监控数据。

Apr, 2017

DAGA: 一种基于生成方法的数据增强技术，用于低资源标注任务

本研究提出了一种基于语言模型的数据增强方法，可以生成高质量的合成数据以提高机器学习性能，在监督和半监督学习环境下，实验结果表明，在给定较少的训练数据的情况下，该方法可以始终优于基准方法。

Nov, 2020

语音语言模型的指导数据生成和无监督适应

我们提出了三种方法来生成合成样本，以训练和评估能够处理文本和语音输入的多模态大语言模型。通过解决包含多种模态的样本的稀缺性问题，合成数据生成成为提高这些系统性能并促进语音和文本领域的跨模态关系建模的关键策略。我们使用大型语言模型生成文本组件和文本到语音系统生成语音组件的过程。所提出的方法提供了一种实用且有效的扩展这些模型训练数据集的方式。实验结果表明，在理解文本和语音方面取得了进展。我们还强调了使用未标注的语音数据来生成质量可与有可用转录的样本媲美的合成样本的潜力，从而使这些模型能够更多地应用于其他语言。

Jun, 2024

利用生成式语言模型进行神经机器翻译的数据增强

通过利用大规模语言模型如 ChatGPT，我们探索了基于提示的数据增强方法，用于产生合成的平行语料库，比较了三种不同提示的方法，并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本，与后向翻译等其他增强方法相比，提高了未增强基线的 0.68 BLEU 分数。

Jul, 2023

针对具有鲁棒性的半监督学习的对抗变分嵌入

我们提出了一种名为 AVAE 的新型对抗生成嵌入框架，该框架将 GAN 的高质量生成模型和 VAE 的后验分布学习器的优势相结合，用于半监督学习，并针对已有的问题进行改进。实践结果表明，我们的方法在半监督分类方面的表现优于现有的最先进模型。

May, 2019

神经 NLP 数据增强

本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展，着重介绍了基于神经网络和变换器的方法，讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。

Feb, 2023