基于端到端神经变形器的口语理解

Aug, 2020

基于端到端神经变形器的口语理解

End-to-End Neural Transformer Based Spoken Language Understanding

Martin Radfar, Athanasios Mouchtaris, Siegfried Kunzmann

TL;DR本论文介绍了一种基于端到端的神经网络转换器，可以在不需要中间层令牌预测架构的情况下，在音频信号中预测嵌入式变长域、意图和插槽向量，可高效提取所述话语所隐含的语义上下文。

Abstract

spoken language understanding (SLU) refers to the process of inferring the semantic information from audio signals. While the neural transformers consistently deliver the best performance among the state-of-the-a

发现论文，激发创造

面向端到端口语理解的语音模型预训练

本研究提出了一种新的减少训练数据量的语音理解模型，在预训练中通过预测单词和音素来学习关键特征，并使用新的SLU数据集Fluent Speech Commands进行实验以测试泛化能力。

Apr, 2019

语音到语义：通过全神经接口共同改进ASR和NLU

本文研究基于语音指令的自然语言理解问题，提出了一种端到端联合SLU模型，可以提取语音中自然语言指令及相关的归属槽位参数或命名实体，并且能够在硬件受限的设备上运行，提高隐私保护并降低服务器成本。

Aug, 2020

口语理解调查：最新进展与新领域

该文章对口语理解技术（SLU）的最新进展和前沿进行了全面概述，包括不同方面，如新分类、新领域和相关资源，旨在为该领域未来的研究提供参考。

Mar, 2021

面向通用语音助手的端到端口语理解

本文介绍了一种基于可预训练的差分可训练模型和使用 Transformer 的层次化系统的语音识别模型，旨在提高其在商用语音助理中的应用性能。实验表明，与基准系统相比，在一些神经网络模型和数据集之上达到了较好的表现。在对数据进行了重新标注并进行了人工评估后，本文提出的方法的语义准确率得到了大幅提高，这显示出本文提出的方法在商用语音助理中的应用价值。

Jun, 2021

口语理解中的语义概念抽取现状如何？

本文述及基于最近三年的神经网络技术，通过直接从语音信号中提取语义，取代传统的分类式自然语言处理方式，以 spoken language understanding 话题研究为主，在利用未标记的数据进行自我监督训练方面取得了新的突破。同时介绍了针对法语 MEDIA 数据集的最新进展，并提出了得到明显改进的成果，概念误差率（CER）从现有最优系统的 13.6% 降至 11.2%。

Jun, 2021

利用语义解码器的多任务RNN-T进行流式口语理解

本文提出了一种可流式传输的多任务语义转换器模型，通过自回归的方式预测ASR和NLU标签，并使用语义解码器聚合以前预测的字块和槽标签，从而优化了E2E SLU模型，且在ASR和NLU指标上表现优于传统的两阶段E2E SLU模型。

Apr, 2022

双通路低延迟端到端口语理解

本研究利用内部预训练的语言模型构建强大的语义表示，使用 2 段 SLU 系统，结合语义和语音特征进行高质量语音识别，以提高用户体验和降低延迟。

Jul, 2022

端到端口语理解: 低资源环境下语音命令任务的性能分析

本文研究了利用深度神经网络的端到端口语理解模型(E2E SLU)在非英语智能家居背景下使用的语言特性，证明了优良的E2E SLU表现并不总是需要完美的ASR能力，并且E2E模型相较于传统管道模型在处理背景噪声和语法变异等方面有更出色的性能。该研究还发现，E2E模型通过音调信息识别语音命令概念。

Jul, 2022

SLUE Phase-2: 一个不同语种口语理解任务的基准套件

本研究基于自由可用的语音数据介绍了几种新的语音理解测试任务，包括问题回答、摘要、命名实体定位和对话行为分类，旨在补充现有基准测试并解决SLU评估领域的差距，为便于比较而发布了基准模型。

Dec, 2022

联合CTC损失和自监督预训练声学编码器的端到端口语理解

本研究通过利用自我监督的声学编码器，提取文本嵌入，结合联合CTC和SLU损失的方法，实现了语音理解任务的话语级SLU模型，并在DSTC2数据集上比SOTA对话行为分类模型提高4％绝对值，在SLURP数据集上比SOTA SLU模型提高1.3％绝对值。

May, 2023