使用预训练语言模型进行口语理解的数据增强

Apr, 2020

使用预训练语言模型进行口语理解的数据增强

Data Augmentation for Spoken Language Understanding via Pretrained Language Models

Baolin Peng, Chenguang Zhu, Michael Zeng, Jianfeng Gao

TL;DR本研究提出了一种数据增量方法，利用预训练语言模型提高生成话语的变异性和准确性，同时探讨和提出了两种在 SLU 中被忽视的半监督学习情况的解决方案。实证结果表明，我们的方法可以生成合成训练数据，在各种情况下提高了语言理解模型的性能。

Abstract

The training of spoken language understanding (SLU) models often faces the problem of data scarcity. In this paper, we put forward a data augmentation method using →

spoken language understanding data augmentation pretrained language models semi-supervised learning synthetic training data

发现论文，激发创造

利用多组噪声扩充数据进行跨语言口语理解的学习

本文提出了一种通过机器学习方法处理低资源语言中语音理解数据的方法，通过多个模型同时对不同扩充的训练数据对彼此提供监督信号，实现了对数据的去噪处理，在两个基准数据集上的实验结果表明，我们的方法优于现有技术达 3.05% 和 4.24% 的性能表现。

Sep, 2021

联合变分生成增强口语理解数据

本文提出了一种新的生成架构，旨在借助潜在变量模型的生成能力来共同合成完全注释的话语，并经过实验验证，通过人工合成数据集来训练 SLU 模型，在不同数据集和模型中获得了性能提升。

Sep, 2018

基于预训练 SSL、ASR、LM 和 SLU 模型的口语理解整合研究

本研究旨在探索使用预训练策略增强口语理解任务性能，通过自监督的语音和语言模型在 SLU 测评基准上进行实验，发现预训练模型可于低资源环境中提升结果，其中以预训练的语言和语音模型分别在情感分析和命名实体识别任务上效果最突出。

Nov, 2022

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

智能代理中口语理解的无监督迁移学习

通过使用语言模型的嵌入（ELMo）技术，提出了一种更快、更简单的无监督预训练方法 ELMo-Light（ELMoL），在大量未标记的句子上进行的无监督预训练，在语音识别任务上比从头开始训练或传统的有监督迁移学习方法表现更好，并且当域内的标记样本仅有 1000 个时，我们的技术可以匹配使用 10-15 倍更多标记的样本从头开始训练的性能。

Nov, 2018

利用语音合成训练端到端口语理解模型

文章提出了一种使用语音合成生成大规模合成数据集的方法，以克服要求领域内语音数据记录的问题，并在两个开源数据集上进行实验证明该方法在作为训练数据的唯一来源和数据扩充形式时的有效性。

Oct, 2019

面向端到端口语理解的语音模型预训练

本研究提出了一种新的减少训练数据量的语音理解模型，在预训练中通过预测单词和音素来学习关键特征，并使用新的 SLU 数据集 Fluent Speech Commands 进行实验以测试泛化能力。

Apr, 2019

跨语言口语理解的迁移学习

本文介绍如何通过在多语言之间传递数据以减少成本，从而提高对新语言的口语理解系统。我们的多任务 SLU 框架在不同语言上经过评估，结果表明我们的单语言模型优于最先进的技术，我们可以大大减少引导新语言口语理解系统所需的数据量，同时，虽然多任务训练比单独训练要好，但不同的权重转移设置可能对不同的 SLU 模块最有效。

Apr, 2019

减少语音训练数据需求以构建口语理解系统

本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法，可以有效地构建端到端的语音理解系统，并在句意和实体两个任务上得到了验证，最终得出该方法可以在仅使用文本数据进行训练的情况下，达到与使用全部语音数据进行训练的系统性能相近的结果。

Feb, 2022

通过语音翻译辅助的端到端口语理解

利用跨语言语音翻译 (ST) 作为预训练任务可提高单语和多语意图分类，口语问答的性能，并探索模型的贝叶斯迁移学习和持续学习惯性。

May, 2023