本文提出了一种利用对比目标、监督对比学习和自蒸馏相结合的方法来学习对语音识别中的错误具有鲁棒性的话语表示,并进一步增强了其泛化能力。在三个基准数据集上的实验表明了我们提出的方法的有效性。
May, 2022
通过互相学习和大间距对比学习,提出一种新的框架 ML-LMCL 来提高自动语音识别在对话系统中口语理解的鲁棒性。通过在手动转录和自动识别转录之间共享知识,引入距离极化正则化器以尽量避免推开簇内成对样本,使用周期性退火调度缓解 KL 关于消失问题,并在三个数据集上表明 ML-LMCL 模型胜过现有模型并获得最新的性能。
Nov, 2023
通过对话的对比学习方法,在不成功的对话中发现易于检测的问题,从而提高自动语音识别模型在任务导向对话中的性能。
Jan, 2024
通过使用自动语音识别系统的网络输出来弥补语音模糊性,增强口语语言理解的结果,通过对置信网络的词语混淆进行实验,研究大型语言模型对嘈杂的语音转录本的鲁棒性,探讨在不同自动语音识别性能条件下的影响因素。
该论文介绍了一种使用未配对数据训练端到端自动语音识别模型的方法,并提出了一种基于语音编码器状态序列而非原始信号的损失来解决在中间文本瓶颈中丢失基本信息的问题,通过对 LibriSpeech 语料库的实验结果表明,这种循环一致性训练可以将单词错误率从使用 100 小时配对数据训练的初始模型中减少 14.7%,并通过研究仅使用文本数据进行语言建模进一步提高了未配对数据训练的性能。
Nov, 2018
本研究通过利用自我监督的声学编码器,提取文本嵌入,结合联合 CTC 和 SLU 损失的方法,实现了语音理解任务的话语级 SLU 模型,并在 DSTC2 数据集上比 SOTA 对话行为分类模型提高 4%绝对值,在 SLURP 数据集上比 SOTA SLU 模型提高 1.3%绝对值。
May, 2023
通过通道对比学习方法,本文提出了一种新的学习方法,用于从嘈杂标签中提取关键特征,辨别真实的类别,并在多个基准数据集上验证了其卓越性能。
Aug, 2023
本研究提出了一种新的混淆感知的微调方法,以减轻 ASR 误差对已预训练的语言模型产生的影响,并在 ATIS 数据集上进行了实验,结果表明该方法显著提高了 ASR 转录文本上口语理解的性能。
Sep, 2019
本研究旨在提高在噪声自动语音识别(ASR)系统条件下口语意图检测的准确性和鲁棒性,引入人类语音产生和感知中的声学关系概念,通过 confusion2vec 词特征表示方法减少 ASR 错误,得到了相对于之前的最优结果有 20.84% 的分类错误率降低和相对于干净版的 37.48% 提高的鲁棒性。同时,在嘈杂环境下训练的意图检测模型也表现出了一定的提高。
Apr, 2019
本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别(E2E ASR)和自监督语言模型(如 BERT)进行微调的通用语义理解框架,该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题,如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明,该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美,具有良好的环境噪声鲁棒性,并且在训练集有限的情况下也能达到较好的效果。
Oct, 2020