连接语音编码器和大型语言模型的全面解决方案用于语音识别

Jun, 2024

连接语音编码器和大型语言模型的全面解决方案用于语音识别

A Comprehensive Solution to Connect Speech Encoder and Large Language Model for ASR

Van Tung Pham, Yist Lin, Tao Han, Wei Li, Jun Zhang...

TL;DR本文提出了一个综合解决方案，包括更加细致的微调方案、匹配损失用于增强模态对齐、以及训练和推理方法来减少插入错误，实验证明部分微调语音编码器和语言模型，以及使用诸如 LoRA 的参数高效方法是最具成本效益的方法，匹配损失能够提升模态对齐，而所提出的训练和推理方法则显著减少了插入错误。

Abstract

Recent works have shown promising results in connecting speech encoders to large language models (LLMs) for speech recognition. However, several limitations persist, including limited fine-tuning options, a lack

speech recognition fine-tuning alignment insertion errors librispeech corpus

发现论文，激发创造

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023

具有强大 ASR 能力的 LMM 的令人尴尬的简单方法

通过对大型语言模型和语音基础编码器进行多种组合的基准测试和研究，本文提出了一种简单而高效的 SLAM-ASR 系统，该系统在 Librispeech 基准测试中表现出色，并且超过了最新的音频通用模型。同时，本文还探讨了基于 LLM 的 ASR 的能力发展和模态对齐的问题。

Feb, 2024

大型语言模型在语音合成中的提升：一项实证研究

本文综合实证研究了如何增强大型语言模型（LLMs）的语音合成能力，比较了三种 LLMs 和语音合成模型（VALL-E）的集成方法，结果显示利用 LLMs 作为文本编码器的耦合方法取得了最佳性能，比原始语音合成模型在讲话者相似度和词错误率（WER）方面表现更好。

Dec, 2023

连接语音编码器和大型语言模型用于 ASR

该论文通过比较研究了三种常用的连接结构，包括全连接层、多头交叉注意力和 Q-Former，并对 Whisper 系列的语音编码器和 Vicuna 系列的大语言模型进行了实验，结果表明基于 Q-Former 的大语言模型相比其他连接结构在 LibriSpeech、Common Voice 和 GigaSpeech 数据集上均取得了一致且显著的词错误率降低。此外，提出了一种新颖的片段级 Q-Former，使大语言模型能够识别超过编码器限制的持续时间的语音片段，在 90 秒长的语音数据上相比其他连接结构取得了 17% 的词错误率降低。

Sep, 2023

针对端到端语音识别和理解优化语音和语言潜空间的对齐

本文提出引用对齐器和模态切换训练来更好地对齐语音和文本潜在空间，实验结果在 Librispeech ASR 任务和 SNIPS 槽填充任务上都表现出了显著的性能提升。

Oct, 2021

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

利用大型语言模型进行端到端的中文 ASR 和 NER

通过将语音记号映射到与文本记号相同的特征空间，将语音模态整合到解码器型大型语言模型 (LLM) 中成为范式。本研究通过中文自动语音识别 (ASR) 和命名实体识别 (NER) 任务对 Whisper 编码器和 ChatGLM3 进行深入比较，评估它们不仅基于传统的 F1 评分，还基于 ASR-NER 错误的新颖细粒度分类。实验结果表明，与短上下文相比，使用编码器 - 解码器架构的性能优于仅解码器架构，而对于长上下文，仅解码器架构可以充分利用 LLM 的所有层，从而获益。我们使用 LLM 显著减少了实体遗漏错误，并改善了实体 ASR 准确率，与 Conformer 基准相比，我们在 AISHELL-NER 测试集上获得了 0.805 的最先进的 F1 评分，并通过 chain-of-thought (CoT) NER 首先推断出长形 ASR 转录，然后预测 NER 标签。

Jan, 2024

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

利用大型语言模型攫取 ASR 不确定性

利用 n-best 列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023

利用调教的大型语言模型的零射击能力进行端到端语音识别

我们提出了一种将指导训练的大型语言模型 (LLM) 与端到端自动语音识别 (ASR) 相结合的新方法。该方法利用 LLMs 的零 - shot 能力来提取语言信息，从而改善 ASR 性能，其中包括纠正 ASR 假设中的语法错误，并利用嵌入的语言知识进行端到端 ASR。实验证明，所提出的集成方法能够取得良好的性能改进，并且我们的方法在 LLM 基于重排序时得到了很大的好处。

Sep, 2023