具有强大ASR能力的LMM的令人尴尬的简单方法

Feb, 2024

具有强大ASR能力的LMM的令人尴尬的简单方法

An Embarrassingly Simple Approach for LLM with Strong ASR Capacity

Ziyang Ma, Guanrou Yang, Yifan Yang, Zhifu Gao, Jiaming Wang...

TL;DR通过对大型语言模型和语音基础编码器进行多种组合的基准测试和研究，本文提出了一种简单而高效的SLAM-ASR系统，该系统在Librispeech基准测试中表现出色，并且超过了最新的音频通用模型。同时，本文还探讨了基于LLM的ASR的能力发展和模态对齐的问题。

Abstract

In this paper, we focus on solving one of the most important tasks in the field of speech processing, i.e., automatic speech recognition (ASR), with speech foundation encoders and →

发现论文，激发创造

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用LLMs的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在Multilingual LibriSpeech上的实验证明，即使在LLM被冻结或者音频编码器使用几乎1秒的步幅生成更少嵌入时，多语种ASR仍然可行，从而为LLMs在长篇音频中进行操作开辟了可能性。

Jul, 2023

利用大型语言模型攫取ASR不确定性

利用n-best列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023

连接语音编码器和大型语言模型用于ASR

该论文通过比较研究了三种常用的连接结构，包括全连接层、多头交叉注意力和Q-Former，并对Whisper系列的语音编码器和Vicuna系列的大语言模型进行了实验，结果表明基于Q-Former的大语言模型相比其他连接结构在LibriSpeech、Common Voice和GigaSpeech数据集上均取得了一致且显著的词错误率降低。此外，提出了一种新颖的片段级Q-Former，使大语言模型能够识别超过编码器限制的持续时间的语音片段，在90秒长的语音数据上相比其他连接结构取得了17%的词错误率降低。

Sep, 2023

揭示基于LLM的中文开源数据集上的ASR潜力

基于大型语言模型的自动语音识别研究，探索了多种配置下的语音编码器、语言模型和投影模块对ASR性能的影响，采用三阶段训练方法实现了在中文数据集上的最佳表现，为未来LLM基于ASR系统的研究提供了实证基础和性能优化的见解。

May, 2024

MaLa-ASR: 多媒体辅助的基于LLM的ASR

提出了基于LLM的ASR模型MaLa-ASR，可以整合从演示文稿中提取的文本关键词来提高会议内容的识别率，通过在输入提示中添加关键词，可将有偏差的词错误率（B-WER）相对减少46.0％和44.2％，在该数据集上取得了新的SOTA。

Jun, 2024

MooER：基于大型语言模型的莫尔线程语音识别和翻译模型

本研究解决了大型语音识别和翻译模型训练数据不足的问题，提出了一种使用5000小时伪标签数据的新训练策略。MooER模型在评测中表现出色，BLEU得分达到25.2，显示出相较于其他开源模型的优势，具有广泛的应用潜力和研究价值。

Aug, 2024

比较离散和连续空间的大型语言模型在语音识别中的应用

本文研究了基于大型语言模型的自动语音识别中离散和连续语音表示的有效性，填补了该领域对这些表示的全面比较的空白。我们首次组织并比较了不同特征的训练方法，发现使用HuBERT编码器在LibriSpeech上的最佳词错误率（WER）达到1.69%，为语音识别和自然语言处理的研究提供了重要的见解。

Sep, 2024

SLAM-ASR的性能评估：优点、缺点、挑战及前进方向

本研究针对SLAM-ASR在不同场景和语音条件下的鲁棒性进行了深入探讨，填补了当前简单方法可能不够稳健的研究空白。通过一系列消融实验，我们提出了新的实证发现，揭示了如何有效利用SLAM-ASR架构。研究结果表明，SLAM-ASR在跨领域评估中表现不佳，且语音的扰动会显著影响其性能，从而为基于LLM的ASR模型的优化提供了宝贵的见解。

Nov, 2024

基于CTC的LLM辅助上下文自动语音识别

本研究解决了现有自动语音识别系统在识别稀有词汇时的局限性。我们提出了一种CTC辅助的上下文自动语音识别模型，通过有效的过滤算法提升了识别稀有长尾词汇的准确性。实验证明，该模型在Librispeech测试集上显著提高了识别性能，相较于基线模型和其他相关工作，展现出强大的潜在影响。

Nov, 2024