利用预训练的 ASR 编码器进行有效和高效的端到端语音意图分类和槽填充

Jul, 2023

利用预训练的 ASR 编码器进行有效和高效的端到端语音意图分类和槽填充

Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling

He Huang, Jagadeesh Balam, Boris Ginsburg

TL;DR通过使用预训练的语音识别（ASR）编码器来初始化端到端（E2E）Conformer-Transformer 模型，本文研究了语音意图分类和槽填充（SICSF），该模型在 SLURP 数据集上实现了新的最高准确度结果，意图准确率为 90.14％，SLURP-F1 为 82.27％，并且与自监督学习（SSL）预训练对比表明，ASR 预训练对于 SICSF 比 SSL 更为有效，此外，我们提供了端到端模型与级联模型（ASR + NLU）之间的深入比较，并展示了，除非提供 oracle ASR 模型，否则 E2E 模型优于级联模型，最后，我们的模型是首个与 oracle ASR 级联模型表现相同的 E2E 模型。

Abstract

We study speech intent classification and slot filling (SICSF) by proposing to use an encoder pretrained on speech recognition (ASR) to in

speech intent classification slot filling encoder end-to-end model asr pretraining

发现论文，激发创造

高效地融合预训练的声学和语言编码器用于低资源语音识别

该论文研究了如何将预训练声学编码器和预训练语言编码器融合到端到端自动语音识别模型中，以提高模型的性能，尤其是在低资源自动语音识别的情境下。实验证明，该方法比其他端到端模型在 15 小时的 CALLHOME 语料库上表现得更好。

Jan, 2021

基于预训练语音和语言模型的端到端语音识别整合

利用预训练语音表示模型与大型语言模型（LLM）的集成，通过以语音表示作为语音提示，自动逐步生成文本标记，以利用 LLM 提供的广博知识，从而实现端到端的自动语音识别（ASR）模型，该模型还可结合推理优化和参数高效领域适应等关键技术，实现与现代端到端 ASR 模型相媲美的性能。

Dec, 2023

自我监督表示在自动语音识别中的高效注入

我们提出了两种简单的方法，使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构，从而在训练期间避免使用自监督学习模型，加快了训练速度，并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。

Apr, 2024

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

自监督预训练表示在端到端语音识别中的探索

本文探讨了预训练语音模型在 E2E-ASR 中的潜在应用，发现在一些 ASR benchmark corpora 上，使用预训练模型能够超越当前最先进的识别性能。其中，HuBERT 模型表现尤为突出，实验代码和模型参数已开源。

Oct, 2021

模态可信度感知的鲁棒端到端口语理解训练

提出了一种增强对 ASR 错误鲁棒性的新型端到端（E2E）口语理解（SLU）系统，通过基于 ASR 假设的估计模态置信度融合音频和文本表示，来解决 E2E SLU 系统在文本表示质量低时的问题，并通过在 STOP 数据集上的准确性改进和分析来证明我们的方法的有效性。

Jul, 2023

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022

一种更好和更快的流式 ASR 端到端模型

本文研究了使用不同算法，如 FastEmit，Conformer 层和 Cascaded Encoders 等，提高端到端模型在流式语音识别领域的质量和延迟平衡。

Nov, 2020

融合预训练的 ASR 和 LM 进行语音理解的序列生成

我们提出了一个三步走的端到端 SLU 系统，将预训练的语音识别模型和语言模型有效地集成到 SLU 框架中，以用于序列生成任务。该系统在 ASR 和 LM 子网络的基础上进行预测，最终预测基于 ASR 和 LM 子网络的表示结果。我们的三步走 SLU 系统在两个基准 SLU 数据集（SLURP 和 SLUE）上表现出卓越性能，尤其在具有挑战性的音频对话中的表现更好。

Jul, 2023

语音识别，语音增强和自监督学习表示的端到端集成

本文介绍了一种针对鲁棒语音识别的全自动语音识别模型 IRIS，该模型整合了语音增强模块和自监督学习表征模块，并在单通道 CHiME-4 测试中表现出最好的性能（开发集：2.0％，测试集：3.9％）。

Apr, 2022