通过互相学习和大间距对比学习,提出一种新的框架 ML-LMCL 来提高自动语音识别在对话系统中口语理解的鲁棒性。通过在手动转录和自动识别转录之间共享知识,引入距离极化正则化器以尽量避免推开簇内成对样本,使用周期性退火调度缓解 KL 关于消失问题,并在三个数据集上表明 ML-LMCL 模型胜过现有模型并获得最新的性能。
Nov, 2023
基于语音识别的自然语言理解方法和两阶段的对比一致性学习模型能够提高在不同噪声环境下的自动语音识别的鲁棒性。
May, 2024
提出了一种多级多粒度的语音语义理解(SLU)框架 MMCL,应用对比学习在话语级、槽位级和词级三个层级上,实现意图和槽位之间的互相引导,通过对公开的多意图 SLU 数据集的实验结果和进一步分析,证明了模型取得了新的最先进结果,在 MixATIS 数据集上的整体准确率相比之前最好的模型提高了 2.6 个百分点。
通过使用自动语音识别系统的网络输出来弥补语音模糊性,增强口语语言理解的结果,通过对置信网络的词语混淆进行实验,研究大型语言模型对嘈杂的语音转录本的鲁棒性,探讨在不同自动语音识别性能条件下的影响因素。
Jan, 2024
介绍了一种基于神经网络的自然语言处理方法,用于识别语音识别中的错误和改进语音理解系统的性能。实验结果表明,该方案可以显著降低概念 / 值错误率,并且结合基于条件随机场的 SLU 方法和神经编码器 / 解码器注意力机制,可以识别出置信度区间和不确定性的语义输出片段,进而决定适当的错误处理措施。
May, 2017
本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别(E2E ASR)和自监督语言模型(如 BERT)进行微调的通用语义理解框架,该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题,如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明,该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美,具有良好的环境噪声鲁棒性,并且在训练集有限的情况下也能达到较好的效果。
Oct, 2020
本论文提出了一种基于元辅助学习的 ASR 和 NLU 联合训练方法,通过利用丰富的语音手动转录数据来提高低资源 SLU 任务的性能,无需访问任何语义注释,该算法的效率在公共 CATSLU 数据集上得到了证明。
Jun, 2022
自动语音识别(ASR)系统是一项关键技术,用于设计各种应用程序,尤其是智能助手,如 Alexa。本文着重于低资源语言 Flemish 的 Intent 分类任务,通过在语音级别和音素转录级别应用不同的数据增强技术,改进了现有模型的性能。
Dec, 2023
研究探索低资源语言环境下,使用拼音转录进行意图分类的方法构建基于语音理解系统,并发现相较于使用语音特征的系统,使用拼音转录的系统具有显著的分类性能提升。
May, 2022
这篇论文探讨了针对 Fluent Speech Commands 数据集的一系列递归架构,用于意图分类,通过结合深度递归架构和标准数据增强,不使用 ASR 级目标或预训练的 ASR 模型即可实现最先进的结果,并且探讨了其对新措辞的普适性,结果表明,该模型在训练期间未见过的措辞上也能表现得相当不错。
Oct, 2019