在超低资源环境下创建口语对话系统

Dec, 2023

在超低资源环境下创建口语对话系统

Creating Spoken Dialog Systems in Ultra-Low Resourced Settings

Moayad Elamin, Muhammad Omer, Yonas Chanie, Henslaac Ndlovu

TL;DR自动语音识别（ASR）系统是一项关键技术，用于设计各种应用程序，尤其是智能助手，如 Alexa。本文着重于低资源语言 Flemish 的 Intent 分类任务，通过在语音级别和音素转录级别应用不同的数据增强技术，改进了现有模型的性能。

Abstract

automatic speech recognition (ASR) systems are a crucial technology that is used today to design a wide variety of applications, most notably, smart assistants, such as Alexa. ASR systems are essentially dialogue systems that employ →

automatic speech recognition spoken language understanding intent classification low resource languages data augmentation techniques

发现论文，激发创造

构建低资源语言口语理解系统

研究探索低资源语言环境下，使用拼音转录进行意图分类的方法构建基于语音理解系统，并发现相较于使用语音特征的系统，使用拼音转录的系统具有显著的分类性能提升。

May, 2022

无 ASR 语音语言理解的端到端架构

这篇论文探讨了针对 Fluent Speech Commands 数据集的一系列递归架构，用于意图分类，通过结合深度递归架构和标准数据增强，不使用 ASR 级目标或预训练的 ASR 模型即可实现最先进的结果，并且探讨了其对新措辞的普适性，结果表明，该模型在训练期间未见过的措辞上也能表现得相当不错。

Oct, 2019

低资源口语理解元辅助学习

本论文提出了一种基于元辅助学习的 ASR 和 NLU 联合训练方法，通过利用丰富的语音手动转录数据来提高低资源 SLU 任务的性能，无需访问任何语义注释，该算法的效率在公共 CATSLU 数据集上得到了证明。

Jun, 2022

利用大型语言模型攫取 ASR 不确定性

利用 n-best 列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023

低延迟无 ASR 端到端口语理解系统

本文提出了一种语音理解系统，可以将一个波形分类为结构化数据 (如意图和槽) 而不需要先将其转录为文本，同时系统具有足够小的占用空间可以运行在微型控制器和嵌入式系统上，并且具有最小延迟以逐段处理输入音频数据，并得到了优秀的性能表现 (比其他类似任务的公开研究成果要好)，同时具有低延迟和更小的模型。

Nov, 2020

提高口语理解的 ASR 错误管理

介绍了一种基于神经网络的自然语言处理方法，用于识别语音识别中的错误和改进语音理解系统的性能。实验结果表明，该方案可以显著降低概念 / 值错误率，并且结合基于条件随机场的 SLU 方法和神经编码器 / 解码器注意力机制，可以识别出置信度区间和不确定性的语义输出片段，进而决定适当的错误处理措施。

May, 2017

对比学习：提高口语理解的 ASR 鲁棒性

本文提出了一种利用对比目标、监督对比学习和自蒸馏相结合的方法来学习对语音识别中的错误具有鲁棒性的话语表示，并进一步增强了其泛化能力。在三个基准数据集上的实验表明了我们提出的方法的有效性。

May, 2022

面向特定领域语音识别的深度学习系统

使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型，提出了基于领域的语音自动识别系统，并通过半监督机器注释的方式收集领域特定的数据，研究结果表明，该系统即使在具有更高的字词错误率的情况下，性能仍优于商业自动语音识别系统，且在人工转录的结果上也呈现出类似的效果。同时，也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。

Mar, 2023

语音到语义：通过全神经接口共同改进 ASR 和 NLU

本文研究基于语音指令的自然语言理解问题，提出了一种端到端联合 SLU 模型，可以提取语音中自然语言指令及相关的归属槽位参数或命名实体，并且能够在硬件受限的设备上运行，提高隐私保护并降低服务器成本。

Aug, 2020

LRSpeech: 极低资源语音合成与识别

本文介绍了一种名为 LRSpeech 的 TTS 和 ASR 系统，能够在极低资源的情况下支持资料匮乏的语言，并通过三个关键技术来优化模型，包括基于富资源语言的预训练和微调、TTS 和 ASR 之间的双重转换以及知识蒸馏等。实验证明 LRSpeech 在语音合成方面达到了工业部署的要求，在语音识别方面达到了很好的识别精度，并且需要非常少的训练数据。

Aug, 2020