在超低资源环境下创建口语对话系统
这篇论文探讨了针对 Fluent Speech Commands 数据集的一系列递归架构,用于意图分类,通过结合深度递归架构和标准数据增强,不使用 ASR 级目标或预训练的 ASR 模型即可实现最先进的结果,并且探讨了其对新措辞的普适性,结果表明,该模型在训练期间未见过的措辞上也能表现得相当不错。
Oct, 2019
本论文提出了一种基于元辅助学习的 ASR 和 NLU 联合训练方法,通过利用丰富的语音手动转录数据来提高低资源 SLU 任务的性能,无需访问任何语义注释,该算法的效率在公共 CATSLU 数据集上得到了证明。
Jun, 2022
本文提出了一种语音理解系统,可以将一个波形分类为结构化数据 (如意图和槽) 而不需要先将其转录为文本,同时系统具有足够小的占用空间可以运行在微型控制器和嵌入式系统上,并且具有最小延迟以逐段处理输入音频数据,并得到了优秀的性能表现 (比其他类似任务的公开研究成果要好),同时具有低延迟和更小的模型。
Nov, 2020
介绍了一种基于神经网络的自然语言处理方法,用于识别语音识别中的错误和改进语音理解系统的性能。实验结果表明,该方案可以显著降低概念 / 值错误率,并且结合基于条件随机场的 SLU 方法和神经编码器 / 解码器注意力机制,可以识别出置信度区间和不确定性的语义输出片段,进而决定适当的错误处理措施。
May, 2017
本文提出了一种利用对比目标、监督对比学习和自蒸馏相结合的方法来学习对语音识别中的错误具有鲁棒性的话语表示,并进一步增强了其泛化能力。在三个基准数据集上的实验表明了我们提出的方法的有效性。
May, 2022
使用预训练的 DeepSpeech2 和 Wav2Vec2 声学模型,提出了基于领域的语音自动识别系统,并通过半监督机器注释的方式收集领域特定的数据,研究结果表明,该系统即使在具有更高的字词错误率的情况下,性能仍优于商业自动语音识别系统,且在人工转录的结果上也呈现出类似的效果。同时,也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。
Mar, 2023
本文研究基于语音指令的自然语言理解问题,提出了一种端到端联合 SLU 模型,可以提取语音中自然语言指令及相关的归属槽位参数或命名实体,并且能够在硬件受限的设备上运行,提高隐私保护并降低服务器成本。
Aug, 2020
本文介绍了一种名为 LRSpeech 的 TTS 和 ASR 系统,能够在极低资源的情况下支持资料匮乏的语言,并通过三个关键技术来优化模型,包括基于富资源语言的预训练和微调、TTS 和 ASR 之间的双重转换以及知识蒸馏等。实验证明 LRSpeech 在语音合成方面达到了工业部署的要求,在语音识别方面达到了很好的识别精度,并且需要非常少的训练数据。
Aug, 2020