基于对比学习和一致性学习的神经噪声通道模型在口语理解中的应用

ACLMay, 2024

基于对比学习和一致性学习的神经噪声通道模型在口语理解中的应用

Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding

Suyoung Kim, Jiyeon Hwang, Ho-Young Jung

TL;DR基于语音识别的自然语言理解方法和两阶段的对比一致性学习模型能够提高在不同噪声环境下的自动语音识别的鲁棒性。

Abstract

Recently, deep end-to-end learning has been studied for intent classification in spoken language understanding (SLU). However, end-to-end models require a large amount of speech data with intent labels, and highl

intent classification spoken language understanding automatic speech recognition noisy-channel model asr errors

发现论文，激发创造

对比学习：提高口语理解的 ASR 鲁棒性

本文提出了一种利用对比目标、监督对比学习和自蒸馏相结合的方法来学习对语音识别中的错误具有鲁棒性的话语表示，并进一步增强了其泛化能力。在三个基准数据集上的实验表明了我们提出的方法的有效性。

May, 2022

ML-LMCL：提升口语理解中自动语音识别鲁棒性的相互学习和大边界对比学习

通过互相学习和大间距对比学习，提出一种新的框架 ML-LMCL 来提高自动语音识别在对话系统中口语理解的鲁棒性。通过在手动转录和自动识别转录之间共享知识，引入距离极化正则化器以尽量避免推开簇内成对样本，使用周期性退火调度缓解 KL 关于消失问题，并在三个数据集上表明 ML-LMCL 模型胜过现有模型并获得最新的性能。

Nov, 2023

面向任务的对话作为自我监督的自动语音识别催化剂

通过对话的对比学习方法，在不成功的对话中发现易于检测的问题，从而提高自动语音识别模型在任务导向对话中的性能。

Jan, 2024

通过上下文学习和词混淆网络实现 ASR 鲁棒性口语语言理解

通过使用自动语音识别系统的网络输出来弥补语音模糊性，增强口语语言理解的结果，通过对置信网络的词语混淆进行实验，研究大型语言模型对嘈杂的语音转录本的鲁棒性，探讨在不同自动语音识别性能条件下的影响因素。

Jan, 2024

端到端语音识别的循环一致性训练

该论文介绍了一种使用未配对数据训练端到端自动语音识别模型的方法，并提出了一种基于语音编码器状态序列而非原始信号的损失来解决在中间文本瓶颈中丢失基本信息的问题，通过对 LibriSpeech 语料库的实验结果表明，这种循环一致性训练可以将单词错误率从使用 100 小时配对数据训练的初始模型中减少 14.7％，并通过研究仅使用文本数据进行语言建模进一步提高了未配对数据训练的性能。

Nov, 2018

联合 CTC 损失和自监督预训练声学编码器的端到端口语理解

本研究通过利用自我监督的声学编码器，提取文本嵌入，结合联合 CTC 和 SLU 损失的方法，实现了语音理解任务的话语级 SLU 模型，并在 DSTC2 数据集上比 SOTA 对话行为分类模型提高 4％绝对值，在 SLURP 数据集上比 SOTA SLU 模型提高 1.3％绝对值。

May, 2023

基于通道的对比学习用于噪声标签学习

通过通道对比学习方法，本文提出了一种新的学习方法，用于从嘈杂标签中提取关键特征，辨别真实的类别，并在多个基准数据集上验证了其卓越性能。

Aug, 2023

针对语音识别鲁棒性的上下文化嵌入在口语理解中的学习

本研究提出了一种新的混淆感知的微调方法，以减轻 ASR 误差对已预训练的语言模型产生的影响，并在 ATIS 数据集上进行了实验，结果表明该方法显著提高了 ASR 转录文本上口语理解的性能。

Sep, 2019

使用 Confusion2Vec 的口语意图检测

本研究旨在提高在噪声自动语音识别（ASR）系统条件下口语意图检测的准确性和鲁棒性，引入人类语音产生和感知中的声学关系概念，通过 confusion2vec 词特征表示方法减少 ASR 错误，得到了相对于之前的最优结果有 20.84% 的分类错误率降低和相对于干净版的 37.48% 提高的鲁棒性。同时，在嘈杂环境下训练的意图检测模型也表现出了一定的提高。

Apr, 2019

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020