利用LLM生成的上下文描述改善特定领域的自动语音识别

Jul, 2024

利用LLM生成的上下文描述改善特定领域的自动语音识别

Improving Domain-Specific ASR with LLM-Generated Contextual Descriptions

Jiwon Suh, Injae Na, Woohwan Jung

TL;DR本研究针对现有端到端自动语音识别系统在识别特定领域词汇（如专有名词和技术术语）方面的不足，提出了一种利用最新的Whisper模型，并结合描述生成和解码器微调等新颖训练方法的改进方法。实验证明，这种方法显著提高了特定领域ASR的准确性，且LLM生成的描述在有效性上优于人工撰写的描述。

Abstract

End-to-end Automatic Speech Recognition (E2E ASR) systems have significantly improved speech recognition through training on extensive datasets. Despite these advancements, they still struggle to accurately recognize domain specific words, such as proper nouns and technical terminologi

发现论文，激发创造

面向特定领域语音识别的深度学习系统

使用预训练的DeepSpeech2和Wav2Vec2声学模型，提出了基于领域的语音自动识别系统，并通过半监督机器注释的方式收集领域特定的数据，研究结果表明，该系统即使在具有更高的字词错误率的情况下，性能仍优于商业自动语音识别系统，且在人工转录的结果上也呈现出类似的效果。同时，也探讨了使用自动语音识别文字转录来辅助口语理解的可行性。

Mar, 2023

语音识别中零-shot领域调适的大型语言模型启发

本文介绍了两种使用LLaMA的零样本ASR领域适应方法，这两种方法可以通过一个领域特定的文本提示有效地减少跨领域TedLium-2和SPGISpeech数据集上的词错误率（WER），特别是，深度LLM-fusion具有更好的实体召回和词汇外单词的召回优势。

Jun, 2023

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用LLMs的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

利用大型语言模型进行零样本ASR领域自适应的语料合成

提出了一种新的自适应ASR模型到新目标领域的策略，其中使用大型语言模型生成目标领域文本语料库，并使用最先进的可控语音合成模型生成相应的语音，通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果，实验证明该方法在未知目标领域上能达到平均相对词错误率提高28%，且源领域性能无降低。

Sep, 2023

基于预训练语音和语言模型的端到端语音识别整合

利用预训练语音表示模型与大型语言模型（LLM）的集成，通过以语音表示作为语音提示，自动逐步生成文本标记，以利用LLM提供的广博知识，从而实现端到端的自动语音识别（ASR）模型，该模型还可结合推理优化和参数高效领域适应等关键技术，实现与现代端到端ASR模型相媲美的性能。

Dec, 2023

揭示基于LLM的中文开源数据集上的ASR潜力

基于大型语言模型的自动语音识别研究，探索了多种配置下的语音编码器、语言模型和投影模块对ASR性能的影响，采用三阶段训练方法实现了在中文数据集上的最佳表现，为未来LLM基于ASR系统的研究提供了实证基础和性能优化的见解。

May, 2024

应用LLMs对非正式对话的ASR候选解进行再评分：领域适应和上下文传递的影响

大语言模型已成功应用于重新评分自动语音识别假设，本研究揭示了它在非正式谈话中重新评分自动语音识别假设的能力，证明了Llama2在CHiME-7远程ASR任务上的优越性。

Jun, 2024

通过上下文化提高基于大语言模型的语音识别能力以识别稀有和模糊词汇

本研究解决了语音识别系统在处理稀有和模糊词汇时的准确性不足问题。通过在文本提示中提供关键词作为先前信息，作者提出了一种新的自回归解码架构，能够在不修改模型架构的情况下对模糊词进行准确转录。实验结果表明，该方法显著提高了罕见和模糊词汇的识别性能。

Aug, 2024

预训练语言模型中的变压器作为自动语音识别编码器的有效性研究

本文研究了变压器在预训练语言模型（PLMs）中作为自动语音识别（ASR）编码器的有效性，填补了这一领域的研究空白。研究表明，变压器在从文本数据中提取特征的能力可以有效转化为处理语音数据，从而显著提升ASR的性能。我们的实验结果显示，在多种ASR任务中，使用预训练语言模型的变压器能显著降低字符错误率（CER）和单词错误率（WER），尤其在需要深刻语义理解的场景中效果更为显著。

Sep, 2024

基于CTC的LLM辅助上下文自动语音识别

本研究解决了现有自动语音识别系统在识别稀有词汇时的局限性。我们提出了一种CTC辅助的上下文自动语音识别模型，通过有效的过滤算法提升了识别稀有长尾词汇的准确性。实验证明，该模型在Librispeech测试集上显著提高了识别性能，相较于基线模型和其他相关工作，展现出强大的潜在影响。

Nov, 2024