基于预训练语音和语言模型的端到端语音识别整合

Dec, 2023

基于预训练语音和语言模型的端到端语音识别整合

An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition

Yukiya Hono, Koh Mitsuda, Tianyu Zhao, Kentaro Mitsui, Toshiaki Wakatsuki...

TL;DR利用预训练语音表示模型与大型语言模型（LLM）的集成，通过以语音表示作为语音提示，自动逐步生成文本标记，以利用LLM提供的广博知识，从而实现端到端的自动语音识别（ASR）模型，该模型还可结合推理优化和参数高效领域适应等关键技术，实现与现代端到端ASR模型相媲美的性能。

Abstract

Advances in machine learning have made it possible to perform various text and speech processing tasks, including automatic speech recognition (ASR), in an end-to-end (E2E) manner. Since typical E2E approaches require large amounts of training data and resources, leveraging pre-trained

发现论文，激发创造

自监督预训练表示在端到端语音识别中的探索

本文探讨了预训练语音模型在 E2E-ASR 中的潜在应用，发现在一些 ASR benchmark corpora 上，使用预训练模型能够超越当前最先进的识别性能。其中，HuBERT 模型表现尤为突出，实验代码和模型参数已开源。

Oct, 2021

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022

将预训练语言模型提炼为多语言自动语音识别模型

本研究提出了一个名为Distill-L2S的新方法，将一个已经训练好的跨语言语言模型转移到语音识别模型中，通过该方法在20种低资源语言中达到了优越性能。

Jun, 2022

端到端语音识别综述

该研究论文介绍了端到端自动语音识别模型的分类和改进，讨论了它们对传统隐马尔科夫模型的影响，涵盖了模型、训练、解码和外部语言模型集成等各个方面，同时讨论了性能和部署机会以及未来的发展前景。

Mar, 2023

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用LLMs的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

从大型语言模型到端到端自动语音识别系统的多重表示迁移

通过多重表示的大型语言模型的转移，我们研究了一种将语言学知识整合到端到端自动语音识别系统中的有效技术，证明了这种方法是传输单一表示的有效替代方案。

Sep, 2023

终端到终端音频识别的声学模型融合

最近在深度学习和自动语音识别（ASR）方面的进展使得端到端（E2E）ASR系统成为可能，并且将准确性提升到一个新的水平。我们提出将外部的AM整合到E2E系统中，以更好地解决领域不匹配问题，并取得了显著的词错误率降低，尤其在增强命名实体识别方面效果明显。

Oct, 2023

提升基于CTC的语音识别的多样建模单元

近年来，由于转换器等深度学习架构的进展，端到端（E2E）自动语音识别（ASR）模型的演变令人瞩目。在E2E系统的基础上，研究人员通过使用音素模型对E2E模型的N个最佳假设进行重新评分，实现了相当大的准确性提升。我们研究了驱动这些改进的潜在机制，并提出了一种高效的联合训练方法，其中E2E模型与多样的建模单元联合训练。这种方法不仅使音素和字素模型的优势得到了衔接，还揭示出以这些多样的建模单元协同方式使用可以显著提高模型的准确性。我们的发现为在开发更可靠准确的ASR系统时，异构建模单元的最佳整合提供了新的见解。

Jun, 2024

利用LLM生成的上下文描述改善特定领域的自动语音识别

本研究针对现有端到端自动语音识别系统在识别特定领域词汇（如专有名词和技术术语）方面的不足，提出了一种利用最新的Whisper模型，并结合描述生成和解码器微调等新颖训练方法的改进方法。实验证明，这种方法显著提高了特定领域ASR的准确性，且LLM生成的描述在有效性上优于人工撰写的描述。

Jul, 2024

预训练语言模型中的变压器作为自动语音识别编码器的有效性研究

本文研究了变压器在预训练语言模型（PLMs）中作为自动语音识别（ASR）编码器的有效性，填补了这一领域的研究空白。研究表明，变压器在从文本数据中提取特征的能力可以有效转化为处理语音数据，从而显著提升ASR的性能。我们的实验结果显示，在多种ASR任务中，使用预训练语言模型的变压器能显著降低字符错误率（CER）和单词错误率（WER），尤其在需要深刻语义理解的场景中效果更为显著。

Sep, 2024