双通路低延迟端到端口语理解
本论文介绍了一种基于端到端的神经网络转换器,可以在不需要中间层令牌预测架构的情况下,在音频信号中预测嵌入式变长域、意图和插槽向量,可高效提取所述话语所隐含的语义上下文。
Aug, 2020
本文介绍了一种基于可预训练的差分可训练模型和使用 Transformer 的层次化系统的语音识别模型,旨在提高其在商用语音助理中的应用性能。实验表明,与基准系统相比,在一些神经网络模型和数据集之上达到了较好的表现。在对数据进行了重新标注并进行了人工评估后,本文提出的方法的语义准确率得到了大幅提高,这显示出本文提出的方法在商用语音助理中的应用价值。
Jun, 2021
本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法,可以有效地构建端到端的语音理解系统,并在句意和实体两个任务上得到了验证,最终得出该方法可以在仅使用文本数据进行训练的情况下,达到与使用全部语音数据进行训练的系统性能相近的结果。
Feb, 2022
本文提出了一种可流式传输的多任务语义转换器模型,通过自回归的方式预测ASR和NLU标签,并使用语义解码器聚合以前预测的字块和槽标签,从而优化了E2E SLU模型,且在ASR和NLU指标上表现优于传统的两阶段E2E SLU模型。
Apr, 2022
本文提出了一种新颖的基于推理的端到端(E2E)口语语音理解(SLU)方法,通过在自动语音识别(ASR)的文本和音频嵌入上进行条件控制,流式传输的ASR模型产生第一步的假设并由第二步的自然语言理解(NLU)组件生成语义解析。
Apr, 2022
本文研究了利用深度神经网络的端到端口语理解模型(E2E SLU)在非英语智能家居背景下使用的语言特性,证明了优良的E2E SLU表现并不总是需要完美的ASR能力,并且E2E模型相较于传统管道模型在处理背景噪声和语法变异等方面有更出色的性能。该研究还发现,E2E模型通过音调信息识别语音命令概念。
Jul, 2022
本研究基于自由可用的语音数据介绍了几种新的语音理解测试任务,包括问题回答、摘要、命名实体定位和对话行为分类,旨在补充现有基准测试并解决SLU评估领域的差距,为便于比较而发布了基准模型。
Dec, 2022
本研究通过利用自我监督的声学编码器,提取文本嵌入,结合联合CTC和SLU损失的方法,实现了语音理解任务的话语级SLU模型,并在DSTC2数据集上比SOTA对话行为分类模型提高4%绝对值,在SLURP数据集上比SOTA SLU模型提高1.3%绝对值。
May, 2023
我们提出了一个三步走的端到端SLU系统,将预训练的语音识别模型和语言模型有效地集成到SLU框架中,以用于序列生成任务。该系统在ASR和LM子网络的基础上进行预测,最终预测基于ASR和LM子网络的表示结果。我们的三步走SLU系统在两个基准SLU数据集(SLURP和SLUE)上表现出卓越性能,尤其在具有挑战性的音频对话中的表现更好。
Jul, 2023
提出了一种增强对ASR错误鲁棒性的新型端到端(E2E)口语理解(SLU)系统,通过基于ASR假设的估计模态置信度融合音频和文本表示,来解决E2E SLU系统在文本表示质量低时的问题,并通过在STOP数据集上的准确性改进和分析来证明我们的方法的有效性。
Jul, 2023