构建低资源语言口语理解系统
自动语音识别(ASR)系统是一项关键技术,用于设计各种应用程序,尤其是智能助手,如 Alexa。本文着重于低资源语言 Flemish 的 Intent 分类任务,通过在语音级别和音素转录级别应用不同的数据增强技术,改进了现有模型的性能。
Dec, 2023
这篇论文探讨了针对 Fluent Speech Commands 数据集的一系列递归架构,用于意图分类,通过结合深度递归架构和标准数据增强,不使用 ASR 级目标或预训练的 ASR 模型即可实现最先进的结果,并且探讨了其对新措辞的普适性,结果表明,该模型在训练期间未见过的措辞上也能表现得相当不错。
Oct, 2019
本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法,可以有效地构建端到端的语音理解系统,并在句意和实体两个任务上得到了验证,最终得出该方法可以在仅使用文本数据进行训练的情况下,达到与使用全部语音数据进行训练的系统性能相近的结果。
Feb, 2022
本论文提出了一种基于元辅助学习的 ASR 和 NLU 联合训练方法,通过利用丰富的语音手动转录数据来提高低资源 SLU 任务的性能,无需访问任何语义注释,该算法的效率在公共 CATSLU 数据集上得到了证明。
Jun, 2022
本研究提出了一种新的减少训练数据量的语音理解模型,在预训练中通过预测单词和音素来学习关键特征,并使用新的 SLU 数据集 Fluent Speech Commands 进行实验以测试泛化能力。
Apr, 2019
本文对三种不同的系统进行了测试,分别为基于文本、基于格子以及基于多模态,研究了在不同情况下使用不同系统的表现;实验结果表明,使用更丰富的自动语音识别输出可以提高语言理解系统的性能,而跨模态的方法可以克服使用自动生成的文本时的问题,并获得约 17.8% 的相对改进。
Dec, 2022
本文研究了利用深度神经网络的端到端口语理解模型 (E2E SLU) 在非英语智能家居背景下使用的语言特性,证明了优良的 E2E SLU 表现并不总是需要完美的 ASR 能力,并且 E2E 模型相较于传统管道模型在处理背景噪声和语法变异等方面有更出色的性能。该研究还发现,E2E 模型通过音调信息识别语音命令概念。
Jul, 2022
本文介绍了一种嵌入式的、面向小型物联网应用的 Spoken Language Understanding 系统,并证明其性能可以与基于云的商业解决方案相媲美。同时,我们还提供了我们实验使用的数据集,旨在促进 SLU 社区的可重复性和有益性。
Oct, 2018