为改善口语理解，朝着对话历史全面集成的方向发展

Apr, 2022

为改善口语理解，朝着对话历史全面集成的方向发展

Towards End-to-End Integration of Dialog History for Improved Spoken Language Understanding

Vishal Sunder, Samuel Thomas, Hong-Kwang J. Kuo, Jatin Ganhotra, Brian Kingsbury...

TL;DR本研究提出了一种基于层次对话模型的端到端口语理解框架，可在不依赖于级联自动语音识别器的情况下直接使用语音形式的对话历史，构建语音和语义嵌入的文本模型，针对训练时间提出一种名为 DropFrame 的新技术。在 HarperValleyBank 对话数据集上，我们的 E2E 历史记录集成在对话行为识别任务上，比基线模型提高了 7.7％的 F1 分数，使用了 48％更少的参数，超过了基线 10％的绝对 F1 分数。

Abstract

Dialog history plays an important role in spoken language understanding (SLU) performance in a dialog system. For end-to-end (E2E) SLU, previous work has used dialog history in text form, which makes the model dependent on a cascaded automatic speech recognizer (ASR). This rescinds the

spoken language understanding end-to-end system hierarchical conversation model semantic embeddings dialog action recognition

发现论文，激发创造

探索迁移学习用于端到端语音理解

本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”，该模型能够同时训练语音转文字、语音理解和文本理解任务，不仅可以在多个数据集上实现最优性能，还可用于零 - shot 端到端语音理解任务。

Dec, 2020

面向通用语音助手的端到端口语理解

本文介绍了一种基于可预训练的差分可训练模型和使用 Transformer 的层次化系统的语音识别模型，旨在提高其在商用语音助理中的应用性能。实验表明，与基准系统相比，在一些神经网络模型和数据集之上达到了较好的表现。在对数据进行了重新标注并进行了人工评估后，本文提出的方法的语义准确率得到了大幅提高，这显示出本文提出的方法在商用语音助理中的应用价值。

Jun, 2021

端到端口语理解：低资源环境下语音命令任务的性能分析

本文研究了利用深度神经网络的端到端口语理解模型 (E2E SLU) 在非英语智能家居背景下使用的语言特性，证明了优良的 E2E SLU 表现并不总是需要完美的 ASR 能力，并且 E2E 模型相较于传统管道模型在处理背景噪声和语法变异等方面有更出色的性能。该研究还发现，E2E 模型通过音调信息识别语音命令概念。

Jul, 2022

上下文感知的端到端语音识别

本研究提出了一种对话上下文感知的语音识别模型，该模型可以在端到端的方式下明确地使用除句子级别信息以外的上下文信息，以使整个系统能够被训练得更好并表现得更优秀。我们在 Switchboard 交谈语音语料库上评估了我们的方法并显示出优于可比较的句子级端到端语音识别系统的效果。

Aug, 2018

端到端语音识别综述

该研究论文介绍了端到端自动语音识别模型的分类和改进，讨论了它们对传统隐马尔科夫模型的影响，涵盖了模型、训练、解码和外部语言模型集成等各个方面，同时讨论了性能和部署机会以及未来的发展前景。

Mar, 2023

模态可信度感知的鲁棒端到端口语理解训练

提出了一种增强对 ASR 错误鲁棒性的新型端到端（E2E）口语理解（SLU）系统，通过基于 ASR 假设的估计模态置信度融合音频和文本表示，来解决 E2E SLU 系统在文本表示质量低时的问题，并通过在 STOP 数据集上的准确性改进和分析来证明我们的方法的有效性。

Jul, 2023

双通路低延迟端到端口语理解

本研究利用内部预训练的语言模型构建强大的语义表示，使用 2 段 SLU 系统，结合语义和语音特征进行高质量语音识别，以提高用户体验和降低延迟。

Jul, 2022

基于预训练语音和语言模型的端到端语音识别整合

利用预训练语音表示模型与大型语言模型（LLM）的集成，通过以语音表示作为语音提示，自动逐步生成文本标记，以利用 LLM 提供的广博知识，从而实现端到端的自动语音识别（ASR）模型，该模型还可结合推理优化和参数高效领域适应等关键技术，实现与现代端到端 ASR 模型相媲美的性能。

Dec, 2023

面向设备的语音理解协商模型

本文提出了一种新颖的基于推理的端到端（E2E）口语语音理解（SLU）方法，通过在自动语音识别（ASR）的文本和音频嵌入上进行条件控制，流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解（NLU）组件生成语义解析。

Apr, 2022

无配对训练数据语音命名实体识别端到端模型

本文提出了一种基于外部模型训练的新型端到端神经模型，用于提取语音信号中的语义信息，并使用 SLU 神经模块替换 ASR 模型的顶层，实现端到端模型的构建。实验结果表明，此方法在 QUAERO 语料库上具有很高的性能。

Apr, 2022