使用预训练语言模型进行口语理解的数据增强
本文提出了一种通过机器学习方法处理低资源语言中语音理解数据的方法,通过多个模型同时对不同扩充的训练数据对彼此提供监督信号,实现了对数据的去噪处理,在两个基准数据集上的实验结果表明,我们的方法优于现有技术达 3.05% 和 4.24% 的性能表现。
Sep, 2021
本文提出了一种新的生成架构,旨在借助潜在变量模型的生成能力来共同合成完全注释的话语,并经过实验验证,通过人工合成数据集来训练 SLU 模型,在不同数据集和模型中获得了性能提升。
Sep, 2018
本研究旨在探索使用预训练策略增强口语理解任务性能,通过自监督的语音和语言模型在 SLU 测评基准上进行实验,发现预训练模型可于低资源环境中提升结果,其中以预训练的语言和语音模型分别在情感分析和命名实体识别任务上效果最突出。
Nov, 2022
本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别(E2E ASR)和自监督语言模型(如 BERT)进行微调的通用语义理解框架,该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题,如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明,该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美,具有良好的环境噪声鲁棒性,并且在训练集有限的情况下也能达到较好的效果。
Oct, 2020
通过使用语言模型的嵌入(ELMo)技术,提出了一种更快、更简单的无监督预训练方法 ELMo-Light(ELMoL),在大量未标记的句子上进行的无监督预训练,在语音识别任务上比从头开始训练或传统的有监督迁移学习方法表现更好,并且当域内的标记样本仅有 1000 个时,我们的技术可以匹配使用 10-15 倍更多标记的样本从头开始训练的性能。
Nov, 2018
文章提出了一种使用语音合成生成大规模合成数据集的方法,以克服要求领域内语音数据记录的问题,并在两个开源数据集上进行实验证明该方法在作为训练数据的唯一来源和数据扩充形式时的有效性。
Oct, 2019
本研究提出了一种新的减少训练数据量的语音理解模型,在预训练中通过预测单词和音素来学习关键特征,并使用新的 SLU 数据集 Fluent Speech Commands 进行实验以测试泛化能力。
Apr, 2019
本文介绍如何通过在多语言之间传递数据以减少成本,从而提高对新语言的口语理解系统。我们的多任务 SLU 框架在不同语言上经过评估,结果表明我们的单语言模型优于最先进的技术,我们可以大大减少引导新语言口语理解系统所需的数据量,同时,虽然多任务训练比单独训练要好,但不同的权重转移设置可能对不同的 SLU 模块最有效。
Apr, 2019
本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法,可以有效地构建端到端的语音理解系统,并在句意和实体两个任务上得到了验证,最终得出该方法可以在仅使用文本数据进行训练的情况下,达到与使用全部语音数据进行训练的系统性能相近的结果。
Feb, 2022