连接语音编码器和大型语言模型用于ASR

Sep, 2023

连接语音编码器和大型语言模型用于ASR

Connecting Speech Encoder and Large Language Model for ASR

Wenyi Yu, Changli Tang, Guangzhi Sun, Xianzhao Chen, Tian Tan...

TL;DR该论文通过比较研究了三种常用的连接结构，包括全连接层、多头交叉注意力和Q-Former，并对Whisper系列的语音编码器和Vicuna系列的大语言模型进行了实验，结果表明基于Q-Former的大语言模型相比其他连接结构在LibriSpeech、Common Voice和GigaSpeech数据集上均取得了一致且显著的词错误率降低。此外，提出了一种新颖的片段级Q-Former，使大语言模型能够识别超过编码器限制的持续时间的语音片段，在90秒长的语音数据上相比其他连接结构取得了17%的词错误率降低。

Abstract

The impressive capability and versatility of large language models (LLMs) have aroused increasing attention in automatic speech recognition (ASR), with several pioneering studies attempting to build integrated AS

发现论文，激发创造

基于大规模语言模型的长篇数据重打分

研究表明，在使用大规模语言模型的情况下，对于长篇ASR测试集，可以使Word Error Eate 和Salient Term Error Rate分别减少8%和30%。

Jun, 2023

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用LLMs的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在Multilingual LibriSpeech上的实验证明，即使在LLM被冻结或者音频编码器使用几乎1秒的步幅生成更少嵌入时，多语种ASR仍然可行，从而为LLMs在长篇音频中进行操作开辟了可能性。

Jul, 2023

从大型语言模型到端到端自动语音识别系统的多重表示迁移

通过多重表示的大型语言模型的转移，我们研究了一种将语言学知识整合到端到端自动语音识别系统中的有效技术，证明了这种方法是传输单一表示的有效替代方案。

Sep, 2023

长篇语音识别的更新语料库和基准

本文重新发布三个标准的ASR语料库，用于长篇ASR研究，并研究了训练与测试数据不匹配问题，通过基准测试展示了长篇训练在此领域转变下的模型鲁棒性。

Sep, 2023

具有强大ASR能力的LMM的令人尴尬的简单方法

通过对大型语言模型和语音基础编码器进行多种组合的基准测试和研究，本文提出了一种简单而高效的SLAM-ASR系统，该系统在Librispeech基准测试中表现出色，并且超过了最新的音频通用模型。同时，本文还探讨了基于LLM的ASR的能力发展和模态对齐的问题。

Feb, 2024

揭示基于LLM的中文开源数据集上的ASR潜力

基于大型语言模型的自动语音识别研究，探索了多种配置下的语音编码器、语言模型和投影模块对ASR性能的影响，采用三阶段训练方法实现了在中文数据集上的最佳表现，为未来LLM基于ASR系统的研究提供了实证基础和性能优化的见解。

May, 2024

通过上下文化提高基于大语言模型的语音识别能力以识别稀有和模糊词汇

本研究解决了语音识别系统在处理稀有和模糊词汇时的准确性不足问题。通过在文本提示中提供关键词作为先前信息，作者提出了一种新的自回归解码架构，能够在不修改模型架构的情况下对模糊词进行准确转录。实验结果表明，该方法显著提高了罕见和模糊词汇的识别性能。

Aug, 2024

比较离散和连续空间的大型语言模型在语音识别中的应用

本文研究了基于大型语言模型的自动语音识别中离散和连续语音表示的有效性，填补了该领域对这些表示的全面比较的空白。我们首次组织并比较了不同特征的训练方法，发现使用HuBERT编码器在LibriSpeech上的最佳词错误率（WER）达到1.69%，为语音识别和自然语言处理的研究提供了重要的见解。

Sep, 2024

大型语言模型可以在多说话者场景中根据多样化指令进行语音转录

本研究针对当前大型语言模型在多说话者场景中的应用缺乏，首次探讨了其在这些复杂环境中进行转录的潜力。通过结合WavLM和Whisper编码器提取多维语音特征，并将其输入到微调的LLM中，我们展示了MT-LLM系统在鸡尾酒会场景中的优异表现，证明了LLM在遵循用户指令进行语音处理方面的巨大潜力。

Sep, 2024