朝向端到端口语理解

Feb, 2018

Towards end-to-end spoken language understanding

Dmitriy Serdyuk, Yongqiang Wang, Christian Fuegen, Anuj Kumar, Baiyang Liu...

TL;DR本文研究了口语理解系统的端到端学习方法，能够直接从音频特征中推断语义意义，而不需要中间文本表示。研究表明，该模型能够获得合理好的结果，并能直接从音频特征中捕捉语义注意力。

Abstract

spoken language understanding system is traditionally designed as a pipeline of a number of components. First, the audio signal is processed by an automatic speech recognizer for transcription or n-best hypotheses. With the recognition results, a →

spoken language understanding pipeline design automatic speech recognition natural language understanding end-to-end learning

发现论文，激发创造

从音频到语义：端到端口语理解方法

本文提出了一种基于编码器 - 解码器模型的语音到语义理解的端到端的方法，将自动语音识别模块和自然语言理解模块联合优化，中间文本表示对于预测语义特别是意图参数非常重要，并且整个系统的共同优化可以提高预测的准确性，尤其是参数单词错误率可以提高 18%。

Sep, 2018

探索迁移学习用于端到端语音理解

本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”，该模型能够同时训练语音转文字、语音理解和文本理解任务，不仅可以在多个数据集上实现最优性能，还可用于零 - shot 端到端语音理解任务。

Dec, 2020

利用语音合成训练端到端口语理解模型

文章提出了一种使用语音合成生成大规模合成数据集的方法，以克服要求领域内语音数据记录的问题，并在两个开源数据集上进行实验证明该方法在作为训练数据的唯一来源和数据扩充形式时的有效性。

Oct, 2019

基于跨模态师生学习的预训练语义语音嵌入用于端到端口语理解

本文提出了一种新的训练方法，将预先训练的语境嵌入用于处理声学特征，并扩展了预先训练的语音识别系统的编码器，以构建端到端的口语理解系统，实验结果表明，该系统在三个基准测试中达到与流水线结构相当的性能，在没有使用任何训练数据的情况下，在两个基准测试中经过微调每类 10 个示例后优于流水线结构。

Jul, 2020

面向端到端口语理解的语音模型预训练

本研究提出了一种新的减少训练数据量的语音理解模型，在预训练中通过预测单词和音素来学习关键特征，并使用新的 SLU 数据集 Fluent Speech Commands 进行实验以测试泛化能力。

Apr, 2019

基于端到端神经变形器的口语理解

本论文介绍了一种基于端到端的神经网络转换器，可以在不需要中间层令牌预测架构的情况下，在音频信号中预测嵌入式变长域、意图和插槽向量，可高效提取所述话语所隐含的语义上下文。

Aug, 2020

端到端口语理解：低资源环境下语音命令任务的性能分析

本文研究了利用深度神经网络的端到端口语理解模型 (E2E SLU) 在非英语智能家居背景下使用的语言特性，证明了优良的 E2E SLU 表现并不总是需要完美的 ASR 能力，并且 E2E 模型相较于传统管道模型在处理背景噪声和语法变异等方面有更出色的性能。该研究还发现，E2E 模型通过音调信息识别语音命令概念。

Jul, 2022

语音理解的流式端到端框架

本文提出了一种流式端到端框架，采用单向 RNN 和 CTC 标准进行训练，可以在线和增量地处理多个意图，实现了与最先进的非流式模型相当的精度，并在关键词检测任务中表现出高度的前途。

May, 2021

无配对训练数据语音命名实体识别端到端模型

本文提出了一种基于外部模型训练的新型端到端神经模型，用于提取语音信号中的语义信息，并使用 SLU 神经模块替换 ASR 模型的顶层，实现端到端模型的构建。实验结果表明，此方法在 QUAERO 语料库上具有很高的性能。

Apr, 2022

面向通用语音助手的端到端口语理解

本文介绍了一种基于可预训练的差分可训练模型和使用 Transformer 的层次化系统的语音识别模型，旨在提高其在商用语音助理中的应用性能。实验表明，与基准系统相比，在一些神经网络模型和数据集之上达到了较好的表现。在对数据进行了重新标注并进行了人工评估后，本文提出的方法的语义准确率得到了大幅提高，这显示出本文提出的方法在商用语音助理中的应用价值。

Jun, 2021