本研究提出了一种新的减少训练数据量的语音理解模型,在预训练中通过预测单词和音素来学习关键特征,并使用新的 SLU 数据集 Fluent Speech Commands 进行实验以测试泛化能力。
Apr, 2019
文章提出了一种使用语音合成生成大规模合成数据集的方法,以克服要求领域内语音数据记录的问题,并在两个开源数据集上进行实验证明该方法在作为训练数据的唯一来源和数据扩充形式时的有效性。
Oct, 2019
本文提出了一种简单且有效的多语言端到端语音翻译框架,并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。
使用预训练模型和多语言设置,提出了一种统一的方法来进行 End-to-End 语音语言理解,包括词槽填充,通过在可用的大规模语音识别数据上进行预训练,该方法在多个数据集和跨语言任务上取得了显著的性能提升。
Oct, 2023
本文旨在通过使用多语言方法探究转移学习在以端到端神经模型进行口语翻译中的有效性,结果表明,使用目标语言嵌入语义空间可以更有效地区分不同目标语言并改进结果,其中当对相似语言进行翻译时效果更为显著,特别是数据不足的情况下。
本论文介绍了一种基于端到端的神经网络转换器,可以在不需要中间层令牌预测架构的情况下,在音频信号中预测嵌入式变长域、意图和插槽向量,可高效提取所述话语所隐含的语义上下文。
Aug, 2020
本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别(E2E ASR)和自监督语言模型(如 BERT)进行微调的通用语义理解框架,该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题,如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明,该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美,具有良好的环境噪声鲁棒性,并且在训练集有限的情况下也能达到较好的效果。
Oct, 2020
本文介绍如何通过在多语言之间传递数据以减少成本,从而提高对新语言的口语理解系统。我们的多任务 SLU 框架在不同语言上经过评估,结果表明我们的单语言模型优于最先进的技术,我们可以大大减少引导新语言口语理解系统所需的数据量,同时,虽然多任务训练比单独训练要好,但不同的权重转移设置可能对不同的 SLU 模块最有效。
本文研究了利用深度神经网络的端到端口语理解模型 (E2E SLU) 在非英语智能家居背景下使用的语言特性,证明了优良的 E2E SLU 表现并不总是需要完美的 ASR 能力,并且 E2E 模型相较于传统管道模型在处理背景噪声和语法变异等方面有更出色的性能。该研究还发现,E2E 模型通过音调信息识别语音命令概念。
Jul, 2022
本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”,该模型能够同时训练语音转文字、语音理解和文本理解任务,不仅可以在多个数据集上实现最优性能,还可用于零 - shot 端到端语音理解任务。
Dec, 2020