双通路低延迟端到端口语理解

Jul, 2022

Two-Pass Low Latency End-to-End Spoken Language Understanding

Siddhant Arora, Siddharth Dalmia, Xuankai Chang, Brian Yan, Alan Black...

TL;DR本研究利用内部预训练的语言模型构建强大的语义表示，使用 2 段 SLU 系统，结合语义和语音特征进行高质量语音识别，以提高用户体验和降低延迟。

Abstract

End-to-end (E2E) models are becoming increasingly popular for spoken language understanding (SLU) systems and are beginning to achieve competitive performance to pipeline-based approaches. However, recent work has shown that these models struggle to generalize to new phrasings for the

发现论文，激发创造

基于端到端神经变形器的口语理解

本论文介绍了一种基于端到端的神经网络转换器，可以在不需要中间层令牌预测架构的情况下，在音频信号中预测嵌入式变长域、意图和插槽向量，可高效提取所述话语所隐含的语义上下文。

Aug, 2020

面向通用语音助手的端到端口语理解

本文介绍了一种基于可预训练的差分可训练模型和使用 Transformer 的层次化系统的语音识别模型，旨在提高其在商用语音助理中的应用性能。实验表明，与基准系统相比，在一些神经网络模型和数据集之上达到了较好的表现。在对数据进行了重新标注并进行了人工评估后，本文提出的方法的语义准确率得到了大幅提高，这显示出本文提出的方法在商用语音助理中的应用价值。

Jun, 2021

减少语音训练数据需求以构建口语理解系统

本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法，可以有效地构建端到端的语音理解系统，并在句意和实体两个任务上得到了验证，最终得出该方法可以在仅使用文本数据进行训练的情况下，达到与使用全部语音数据进行训练的系统性能相近的结果。

Feb, 2022

利用语义解码器的多任务RNN-T进行流式口语理解

本文提出了一种可流式传输的多任务语义转换器模型，通过自回归的方式预测ASR和NLU标签，并使用语义解码器聚合以前预测的字块和槽标签，从而优化了E2E SLU模型，且在ASR和NLU指标上表现优于传统的两阶段E2E SLU模型。

Apr, 2022

面向设备的语音理解协商模型

本文提出了一种新颖的基于推理的端到端（E2E）口语语音理解（SLU）方法，通过在自动语音识别（ASR）的文本和音频嵌入上进行条件控制，流式传输的ASR模型产生第一步的假设并由第二步的自然语言理解（NLU）组件生成语义解析。

Apr, 2022

端到端口语理解: 低资源环境下语音命令任务的性能分析

本文研究了利用深度神经网络的端到端口语理解模型(E2E SLU)在非英语智能家居背景下使用的语言特性，证明了优良的E2E SLU表现并不总是需要完美的ASR能力，并且E2E模型相较于传统管道模型在处理背景噪声和语法变异等方面有更出色的性能。该研究还发现，E2E模型通过音调信息识别语音命令概念。

Jul, 2022

SLUE Phase-2: 一个不同语种口语理解任务的基准套件

本研究基于自由可用的语音数据介绍了几种新的语音理解测试任务，包括问题回答、摘要、命名实体定位和对话行为分类，旨在补充现有基准测试并解决SLU评估领域的差距，为便于比较而发布了基准模型。

Dec, 2022

联合CTC损失和自监督预训练声学编码器的端到端口语理解

本研究通过利用自我监督的声学编码器，提取文本嵌入，结合联合CTC和SLU损失的方法，实现了语音理解任务的话语级SLU模型，并在DSTC2数据集上比SOTA对话行为分类模型提高4％绝对值，在SLURP数据集上比SOTA SLU模型提高1.3％绝对值。

May, 2023

融合预训练的ASR和LM进行语音理解的序列生成

我们提出了一个三步走的端到端SLU系统，将预训练的语音识别模型和语言模型有效地集成到SLU框架中，以用于序列生成任务。该系统在ASR和LM子网络的基础上进行预测，最终预测基于ASR和LM子网络的表示结果。我们的三步走SLU系统在两个基准SLU数据集（SLURP和SLUE）上表现出卓越性能，尤其在具有挑战性的音频对话中的表现更好。

Jul, 2023

模态可信度感知的鲁棒端到端口语理解训练

提出了一种增强对ASR错误鲁棒性的新型端到端（E2E）口语理解（SLU）系统，通过基于ASR假设的估计模态置信度融合音频和文本表示，来解决E2E SLU系统在文本表示质量低时的问题，并通过在STOP数据集上的准确性改进和分析来证明我们的方法的有效性。

Jul, 2023