大型语言模型可以在多说话者场景中根据多样化指令进行语音转录

Sep, 2024

大型语言模型可以在多说话者场景中根据多样化指令进行语音转录

Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions

Lingwei Meng, Shujie Hu, Jiawen Kang, Zhaoqing Li, Yuejiao Wang...

TL;DR本研究针对当前大型语言模型在多说话者场景中的应用缺乏，首次探讨了其在这些复杂环境中进行转录的潜力。通过结合WavLM和Whisper编码器提取多维语音特征，并将其输入到微调的LLM中，我们展示了MT-LLM系统在鸡尾酒会场景中的优异表现，证明了LLM在遵循用户指令进行语音处理方面的巨大潜力。

Abstract

Recent advancements in large language models (LLMs) have revolutionized various domains, bringing significant progress and new opportunities. Despite progress in speech-related tasks, LLMs have not been sufficiently explored in Multi-Talker Scenarios. In this work, we present a pioneer

发现论文，激发创造

关于语音到文本和大型语言模型集成的仅解码器架构

该研究介绍了Speech-LLaMA，一种将声学信息有效地整合到基于文本的大型语言模型中的新方法，并进一步探索了仅解码器架构在语音处理任务中的应用。

Jul, 2023

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用LLMs的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在Multilingual LibriSpeech上的实验证明，即使在LLM被冻结或者音频编码器使用几乎1秒的步幅生成更少嵌入时，多语种ASR仍然可行，从而为LLMs在长篇音频中进行操作开辟了可能性。

Jul, 2023

从大型语言模型到端到端自动语音识别系统的多重表示迁移

通过多重表示的大型语言模型的转移，我们研究了一种将语言学知识整合到端到端自动语音识别系统中的有效技术，证明了这种方法是传输单一表示的有效替代方案。

Sep, 2023

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练LLM的上下文化语音识别能力并显著提高性能。

Sep, 2023

连接语音编码器和大型语言模型用于ASR

该论文通过比较研究了三种常用的连接结构，包括全连接层、多头交叉注意力和Q-Former，并对Whisper系列的语音编码器和Vicuna系列的大语言模型进行了实验，结果表明基于Q-Former的大语言模型相比其他连接结构在LibriSpeech、Common Voice和GigaSpeech数据集上均取得了一致且显著的词错误率降低。此外，提出了一种新颖的片段级Q-Former，使大语言模型能够识别超过编码器限制的持续时间的语音片段，在90秒长的语音数据上相比其他连接结构取得了17%的词错误率降低。

Sep, 2023

WavLLM：面向健壮和适应性语音大语言模型的研究

WavLLM是一种鲁棒且自适应的具有双编码器和提示感知的语音大型语言模型，通过两阶段课程学习方法来优化，以在各种语境下进行听觉任务的泛化和执行复杂任务。

Mar, 2024

通过多指令训练教授一种多语言的大型语言模型理解多语言语音

利用多语言语言模型与多语言语音编码器，本研究提出BLOOMZMMS，旨在为语音识别及其它领域利用大型语言模型的能力。通过多指令训练方法，我们验证了从文本到语音模态的语言知识的可传递性。实验证明，可以有效地学习并使多语言语音表征与多语言语言模型对齐。尽管初始表征在任务泛化方面存在局限性，但我们通过生成多指令样式的合成目标解决了这个问题。零样本评估结果证实了我们的方法在多种任务上的强大鲁棒性，包括语音翻译和多语言口语理解，从而为语音领域应用大型语言模型开辟了新的途径。

Apr, 2024

通过上下文化提高基于大语言模型的语音识别能力以识别稀有和模糊词汇

本研究解决了语音识别系统在处理稀有和模糊词汇时的准确性不足问题。通过在文本提示中提供关键词作为先前信息，作者提出了一种新的自回归解码架构，能够在不修改模型架构的情况下对模糊词进行准确转录。实验结果表明，该方法显著提高了罕见和模糊词汇的识别性能。

Aug, 2024

基于大型语音-文本基础模型的语音识别重评分

本研究解决了自动语音识别（ASR）系统因可用转录语音数据有限而导致的性能瓶颈。提出了利用多模态大型语言模型进行ASR重评分的创新技术，并探索了判别训练来提升重评分性能。实验表明，通过语音-文本基础模型的跨模态知识转移，重评分效果显著提升，相较Whisper大型ASR和仅基于文本的LLM分别提高了20%和15%的相对性能。

Sep, 2024