利用语音识别能力激发大型语言模型

Jul, 2023

利用语音识别能力激发大型语言模型

Prompting Large Language Models with Speech Recognition Abilities

Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan...

TL;DR通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在Multilingual LibriSpeech上的实验证明，即使在LLM被冻结或者音频编码器使用几乎1秒的步幅生成更少嵌入时，多语种ASR仍然可行，从而为LLMs在长篇音频中进行操作开辟了可能性。

Abstract

large language models have proven themselves highly flexible, able to solve a wide range of generative tasks, such as abstractive summarization and open-ended question answering. In this paper we extend the capabilities of LLMs by directly attaching a small →

发现论文，激发创造

语音识别中零-shot领域调适的大型语言模型启发

本文介绍了两种使用LLaMA的零样本ASR领域适应方法，这两种方法可以通过一个领域特定的文本提示有效地减少跨领域TedLium-2和SPGISpeech数据集上的词错误率（WER），特别是，深度LLM-fusion具有更好的实体召回和词汇外单词的召回优势。

Jun, 2023

关于语音到文本和大型语言模型集成的仅解码器架构

该研究介绍了Speech-LLaMA，一种将声学信息有效地整合到基于文本的大型语言模型中的新方法，并进一步探索了仅解码器架构在语音处理任务中的应用。

Jul, 2023

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用LLMs的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练LLM的上下文化语音识别能力并显著提高性能。

Sep, 2023

连接语音编码器和大型语言模型用于ASR

该论文通过比较研究了三种常用的连接结构，包括全连接层、多头交叉注意力和Q-Former，并对Whisper系列的语音编码器和Vicuna系列的大语言模型进行了实验，结果表明基于Q-Former的大语言模型相比其他连接结构在LibriSpeech、Common Voice和GigaSpeech数据集上均取得了一致且显著的词错误率降低。此外，提出了一种新颖的片段级Q-Former，使大语言模型能够识别超过编码器限制的持续时间的语音片段，在90秒长的语音数据上相比其他连接结构取得了17%的词错误率降低。

Sep, 2023

通过多指令训练教授一种多语言的大型语言模型理解多语言语音

利用多语言语言模型与多语言语音编码器，本研究提出BLOOMZMMS，旨在为语音识别及其它领域利用大型语言模型的能力。通过多指令训练方法，我们验证了从文本到语音模态的语言知识的可传递性。实验证明，可以有效地学习并使多语言语音表征与多语言语言模型对齐。尽管初始表征在任务泛化方面存在局限性，但我们通过生成多指令样式的合成目标解决了这个问题。零样本评估结果证实了我们的方法在多种任务上的强大鲁棒性，包括语音翻译和多语言口语理解，从而为语音领域应用大型语言模型开辟了新的途径。

Apr, 2024

揭示基于LLM的中文开源数据集上的ASR潜力

基于大型语言模型的自动语音识别研究，探索了多种配置下的语音编码器、语言模型和投影模块对ASR性能的影响，采用三阶段训练方法实现了在中文数据集上的最佳表现，为未来LLM基于ASR系统的研究提供了实证基础和性能优化的见解。

May, 2024

通过上下文化提高基于大语言模型的语音识别能力以识别稀有和模糊词汇

本研究解决了语音识别系统在处理稀有和模糊词汇时的准确性不足问题。通过在文本提示中提供关键词作为先前信息，作者提出了一种新的自回归解码架构，能够在不修改模型架构的情况下对模糊词进行准确转录。实验结果表明，该方法显著提高了罕见和模糊词汇的识别性能。

Aug, 2024

大型语言模型可以在多说话者场景中根据多样化指令进行语音转录

本研究针对当前大型语言模型在多说话者场景中的应用缺乏，首次探讨了其在这些复杂环境中进行转录的潜力。通过结合WavLM和Whisper编码器提取多维语音特征，并将其输入到微调的LLM中，我们展示了MT-LLM系统在鸡尾酒会场景中的优异表现，证明了LLM在遵循用户指令进行语音处理方面的巨大潜力。

Sep, 2024

利用构建的代码切换数据增强大语言模型的多语言语音生成和识别能力

本研究解决了当前大语言模型在多语言和代码切换语境中应用的不足，提出了一种多语言多任务（MLMT）模型，将语音生成与识别任务整合在一起。我们的数据构建方法无须依赖代码切换数据即可实现语音合成，实验结果显示该模型在多语言语音生成和识别任务中明显优于其他基线模型。

Sep, 2024