利用语义解码器的多任务 RNN-T 进行流式口语理解
本文提出了一种新颖的基于推理的端到端(E2E)口语语音理解(SLU)方法,通过在自动语音识别(ASR)的文本和音频嵌入上进行条件控制,流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解(NLU)组件生成语义解析。
Apr, 2022
本文研究了利用深度神经网络的端到端口语理解模型 (E2E SLU) 在非英语智能家居背景下使用的语言特性,证明了优良的 E2E SLU 表现并不总是需要完美的 ASR 能力,并且 E2E 模型相较于传统管道模型在处理背景噪声和语法变异等方面有更出色的性能。该研究还发现,E2E 模型通过音调信息识别语音命令概念。
Jul, 2022
本研究通过利用自我监督的声学编码器,提取文本嵌入,结合联合 CTC 和 SLU 损失的方法,实现了语音理解任务的话语级 SLU 模型,并在 DSTC2 数据集上比 SOTA 对话行为分类模型提高 4%绝对值,在 SLURP 数据集上比 SOTA SLU 模型提高 1.3%绝对值。
May, 2023
提出了一种增强对 ASR 错误鲁棒性的新型端到端(E2E)口语理解(SLU)系统,通过基于 ASR 假设的估计模态置信度融合音频和文本表示,来解决 E2E SLU 系统在文本表示质量低时的问题,并通过在 STOP 数据集上的准确性改进和分析来证明我们的方法的有效性。
Jul, 2023
本论文介绍了一种基于端到端的神经网络转换器,可以在不需要中间层令牌预测架构的情况下,在音频信号中预测嵌入式变长域、意图和插槽向量,可高效提取所述话语所隐含的语义上下文。
Aug, 2020
本文介绍了利用两类 E2E 模型(RNN 转录器和基于注意力的编码器 - 解码器)进行口语语言理解系统的语义实体预测的研究,以及提出的一种数据增强技术和一种隐式注意力对齐方法来推断口语顺序,从而提高 E2E SLU 模型的性能。相较于以前报导的结果,F1 分数显著提高了超过 11%(对于 RNN-T)和约 2%(对于基于注意力的编码器 - 解码器)。
Jan, 2022
提出使用循环神经网络 (RNN) 基于增量处理的方式进行口语语言理解 (SLU) 的意图检测,从而实现系统延迟更低的效果,同时不会显著降低 SLU 系统的准确性。
Oct, 2019
我们提出了一个三步走的端到端 SLU 系统,将预训练的语音识别模型和语言模型有效地集成到 SLU 框架中,以用于序列生成任务。该系统在 ASR 和 LM 子网络的基础上进行预测,最终预测基于 ASR 和 LM 子网络的表示结果。我们的三步走 SLU 系统在两个基准 SLU 数据集(SLURP 和 SLUE)上表现出卓越性能,尤其在具有挑战性的音频对话中的表现更好。
Jul, 2023
本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”,该模型能够同时训练语音转文字、语音理解和文本理解任务,不仅可以在多个数据集上实现最优性能,还可用于零 - shot 端到端语音理解任务。
Dec, 2020