本研究提出了一种数据增量方法,利用预训练语言模型提高生成话语的变异性和准确性,同时探讨和提出了两种在 SLU 中被忽视的半监督学习情况的解决方案。实证结果表明,我们的方法可以生成合成训练数据,在各种情况下提高了语言理解模型的性能。
Apr, 2020
本文提出了一种通过机器学习方法处理低资源语言中语音理解数据的方法,通过多个模型同时对不同扩充的训练数据对彼此提供监督信号,实现了对数据的去噪处理,在两个基准数据集上的实验结果表明,我们的方法优于现有技术达 3.05% 和 4.24% 的性能表现。
Sep, 2021
本文提出了一种基于变分神经网络的自然语言生成模型,用于解决受限标记数据集的自然语言生成问题,并通过引入变分推理和辅助自编码器与有效的训练程序来提高模型性能。实验表明,该模型不仅在有足够训练数据时优于以前的模型,而且在数据稀缺情况下也表现出良好的能力。
Nov, 2018
本文提出了一种基于原子模板的数据增强方法和编码器 - 解码器模型解决语音理解中数据稀缺问题和域适应问题。实验结果表明我们的方法在 DSTC 2&3 数据集上取得了显著的改进。
Aug, 2019
使用变分自编码器实现了对自然语音生成过程的建模与学习,获得了较大突破。利用学习的潜在空间算术操作,实现了对语音的音素内容或说话人身份的无监督修改,无需平行监控数据。
Apr, 2017
本研究提出了一种基于语言模型的数据增强方法,可以生成高质量的合成数据以提高机器学习性能,在监督和半监督学习环境下,实验结果表明,在给定较少的训练数据的情况下,该方法可以始终优于基准方法。
Nov, 2020
我们提出了三种方法来生成合成样本,以训练和评估能够处理文本和语音输入的多模态大语言模型。通过解决包含多种模态的样本的稀缺性问题,合成数据生成成为提高这些系统性能并促进语音和文本领域的跨模态关系建模的关键策略。我们使用大型语言模型生成文本组件和文本到语音系统生成语音组件的过程。所提出的方法提供了一种实用且有效的扩展这些模型训练数据集的方式。实验结果表明,在理解文本和语音方面取得了进展。我们还强调了使用未标注的语音数据来生成质量可与有可用转录的样本媲美的合成样本的潜力,从而使这些模型能够更多地应用于其他语言。
Jun, 2024
通过利用大规模语言模型如 ChatGPT,我们探索了基于提示的数据增强方法,用于产生合成的平行语料库,比较了三种不同提示的方法,并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本,与后向翻译等其他增强方法相比,提高了未增强基线的 0.68 BLEU 分数。
Jul, 2023
我们提出了一种名为 AVAE 的新型对抗生成嵌入框架,该框架将 GAN 的高质量生成模型和 VAE 的后验分布学习器的优势相结合,用于半监督学习,并针对已有的问题进行改进。实践结果表明,我们的方法在半监督分类方面的表现优于现有的最先进模型。
May, 2019
本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展,着重介绍了基于神经网络和变换器的方法,讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。
Feb, 2023