对比学习：提高口语理解的 ASR 鲁棒性

May, 2022

对比学习：提高口语理解的 ASR 鲁棒性

Contrastive Learning for Improving ASR Robustness in Spoken Language Understanding

Ya-Hsin Chang, Yun-Nung Chen

TL;DR本文提出了一种利用对比目标、监督对比学习和自蒸馏相结合的方法来学习对语音识别中的错误具有鲁棒性的话语表示，并进一步增强了其泛化能力。在三个基准数据集上的实验表明了我们提出的方法的有效性。

Abstract

spoken language understanding (SLU) is an essential task for machines to understand human speech for better interactions. However, errors from the automatic speech recognizer (ASR) usually hurt the understanding

spoken language understanding automatic speech recognizer contrastive objective supervised contrastive learning self-distillation

发现论文，激发创造

ML-LMCL：提升口语理解中自动语音识别鲁棒性的相互学习和大边界对比学习

通过互相学习和大间距对比学习，提出一种新的框架 ML-LMCL 来提高自动语音识别在对话系统中口语理解的鲁棒性。通过在手动转录和自动识别转录之间共享知识，引入距离极化正则化器以尽量避免推开簇内成对样本，使用周期性退火调度缓解 KL 关于消失问题，并在三个数据集上表明 ML-LMCL 模型胜过现有模型并获得最新的性能。

Nov, 2023

基于对比学习和一致性学习的神经噪声通道模型在口语理解中的应用

基于语音识别的自然语言理解方法和两阶段的对比一致性学习模型能够提高在不同噪声环境下的自动语音识别的鲁棒性。

May, 2024

多层次多粒度对比学习驱动口语理解

提出了一种多级多粒度的语音语义理解（SLU）框架 MMCL，应用对比学习在话语级、槽位级和词级三个层级上，实现意图和槽位之间的互相引导，通过对公开的多意图 SLU 数据集的实验结果和进一步分析，证明了模型取得了新的最先进结果，在 MixATIS 数据集上的整体准确率相比之前最好的模型提高了 2.6 个百分点。

May, 2024

通过上下文学习和词混淆网络实现 ASR 鲁棒性口语语言理解

通过使用自动语音识别系统的网络输出来弥补语音模糊性，增强口语语言理解的结果，通过对置信网络的词语混淆进行实验，研究大型语言模型对嘈杂的语音转录本的鲁棒性，探讨在不同自动语音识别性能条件下的影响因素。

Jan, 2024

提高口语理解的 ASR 错误管理

介绍了一种基于神经网络的自然语言处理方法，用于识别语音识别中的错误和改进语音理解系统的性能。实验结果表明，该方案可以显著降低概念 / 值错误率，并且结合基于条件随机场的 SLU 方法和神经编码器 / 解码器注意力机制，可以识别出置信度区间和不确定性的语义输出片段，进而决定适当的错误处理措施。

May, 2017

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

低资源口语理解元辅助学习

本论文提出了一种基于元辅助学习的 ASR 和 NLU 联合训练方法，通过利用丰富的语音手动转录数据来提高低资源 SLU 任务的性能，无需访问任何语义注释，该算法的效率在公共 CATSLU 数据集上得到了证明。

Jun, 2022

在超低资源环境下创建口语对话系统

自动语音识别（ASR）系统是一项关键技术，用于设计各种应用程序，尤其是智能助手，如 Alexa。本文着重于低资源语言 Flemish 的 Intent 分类任务，通过在语音级别和音素转录级别应用不同的数据增强技术，改进了现有模型的性能。

Dec, 2023

构建低资源语言口语理解系统

研究探索低资源语言环境下，使用拼音转录进行意图分类的方法构建基于语音理解系统，并发现相较于使用语音特征的系统，使用拼音转录的系统具有显著的分类性能提升。

May, 2022

无 ASR 语音语言理解的端到端架构

这篇论文探讨了针对 Fluent Speech Commands 数据集的一系列递归架构，用于意图分类，通过结合深度递归架构和标准数据增强，不使用 ASR 级目标或预训练的 ASR 模型即可实现最先进的结果，并且探讨了其对新措辞的普适性，结果表明，该模型在训练期间未见过的措辞上也能表现得相当不错。

Oct, 2019