基于声学语言模型预训练的端到端语音识别和流畅性修正

Sep, 2023

基于声学语言模型预训练的端到端语音识别和流畅性修正

End-to-End Speech Recognition and Disfluency Removal with Acoustic Language Model Pretraining

Saksham Bassi, Giulio Duregon, Siddhartha Jalagam, David Roth

TL;DR基于最近在大规模音频预训练方面的成功，我们重新评估两阶段和端到端模型之间的性能比较，并发现使用弱自监督目标进行音频预训练的语音模型与类似训练的两阶段模型的性能相匹配或超过，而预训练目标的选择显著影响模型适应去除启动词任务的能力。

Abstract

The SOTA in transcription of disfluent and conversational speech has in recent years favored two-stage models, with separate transcription

transcription disfluent speech conversational speech end-to-end model self-supervised pretraining

发现论文，激发创造

端到端语音识别和修正发语障

探索使用端到端语音识别模型直接将混杂的语音转化为流畅的转录文本的可能性，并且我们提出了两个新的度量标准来评估集成 ASR 和无流畅度模型的性能，该论文的发现可以作为未来关于端到端语音识别和无流畅度处理任务的研究的基准。

Sep, 2020

面向端到端口语理解的语音模型预训练

本研究提出了一种新的减少训练数据量的语音理解模型，在预训练中通过预测单词和音素来学习关键特征，并使用新的 SLU 数据集 Fluent Speech Commands 进行实验以测试泛化能力。

Apr, 2019

通过语音翻译辅助的端到端口语理解

利用跨语言语音翻译 (ST) 作为预训练任务可提高单语和多语意图分类，口语问答的性能，并探索模型的贝叶斯迁移学习和持续学习惯性。

May, 2023

基于预训练语音和语言模型的端到端语音识别整合

利用预训练语音表示模型与大型语言模型（LLM）的集成，通过以语音表示作为语音提示，自动逐步生成文本标记，以利用 LLM 提供的广博知识，从而实现端到端的自动语音识别（ASR）模型，该模型还可结合推理优化和参数高效领域适应等关键技术，实现与现代端到端 ASR 模型相媲美的性能。

Dec, 2023

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022

端到端语音翻译中，从不流畅的语音中获得流畅的翻译

使用序列到序列模型实现了从具有语言障碍的演讲转化为流畅的文本，并且引入了如何评估此任务的考虑，为新任务提供了基础，即同时消除演讲中的语言障碍。

Jun, 2019

探索迁移学习用于端到端语音理解

本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”，该模型能够同时训练语音转文字、语音理解和文本理解任务，不仅可以在多个数据集上实现最优性能，还可用于零 - shot 端到端语音理解任务。

Dec, 2020

多阶段多模态预训练自动语音识别

多模态预训练可以提高自动语音识别性能，尤其是结合多任务无监督预训练和基于翻译的有监督中间训练方法可以实现显著的字错误率改善。

Mar, 2024

利用语音合成训练端到端口语理解模型

文章提出了一种使用语音合成生成大规模合成数据集的方法，以克服要求领域内语音数据记录的问题，并在两个开源数据集上进行实验证明该方法在作为训练数据的唯一来源和数据扩充形式时的有效性。

Oct, 2019

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020