具有强大ASR能力的LMM的令人尴尬的简单方法
本文旨在探讨将大型语言模型(LLMs)集成到自动语音识别(ASR)系统中以提高转录准确性的潜力,并通过实验表明在当前阶段,使用LLMs的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。
Jul, 2023
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在Multilingual LibriSpeech上的实验证明,即使在LLM被冻结或者音频编码器使用几乎1秒的步幅生成更少嵌入时,多语种ASR仍然可行,从而为LLMs在长篇音频中进行操作开辟了可能性。
Jul, 2023
该论文通过比较研究了三种常用的连接结构,包括全连接层、多头交叉注意力和Q-Former,并对Whisper系列的语音编码器和Vicuna系列的大语言模型进行了实验,结果表明基于Q-Former的大语言模型相比其他连接结构在LibriSpeech、Common Voice和GigaSpeech数据集上均取得了一致且显著的词错误率降低。此外,提出了一种新颖的片段级Q-Former,使大语言模型能够识别超过编码器限制的持续时间的语音片段,在90秒长的语音数据上相比其他连接结构取得了17%的词错误率降低。
Sep, 2023
基于大型语言模型的自动语音识别研究,探索了多种配置下的语音编码器、语言模型和投影模块对ASR性能的影响,采用三阶段训练方法实现了在中文数据集上的最佳表现,为未来LLM基于ASR系统的研究提供了实证基础和性能优化的见解。
May, 2024
提出了基于LLM的ASR模型MaLa-ASR,可以整合从演示文稿中提取的文本关键词来提高会议内容的识别率,通过在输入提示中添加关键词,可将有偏差的词错误率(B-WER)相对减少46.0%和44.2%,在该数据集上取得了新的SOTA。
Jun, 2024
本研究解决了大型语音识别和翻译模型训练数据不足的问题,提出了一种使用5000小时伪标签数据的新训练策略。MooER模型在评测中表现出色,BLEU得分达到25.2,显示出相较于其他开源模型的优势,具有广泛的应用潜力和研究价值。
Aug, 2024
本文研究了基于大型语言模型的自动语音识别中离散和连续语音表示的有效性,填补了该领域对这些表示的全面比较的空白。我们首次组织并比较了不同特征的训练方法,发现使用HuBERT编码器在LibriSpeech上的最佳词错误率(WER)达到1.69%,为语音识别和自然语言处理的研究提供了重要的见解。
Sep, 2024
本研究针对SLAM-ASR在不同场景和语音条件下的鲁棒性进行了深入探讨,填补了当前简单方法可能不够稳健的研究空白。通过一系列消融实验,我们提出了新的实证发现,揭示了如何有效利用SLAM-ASR架构。研究结果表明,SLAM-ASR在跨领域评估中表现不佳,且语音的扰动会显著影响其性能,从而为基于LLM的ASR模型的优化提供了宝贵的见解。
Nov, 2024
本研究解决了现有自动语音识别系统在识别稀有词汇时的局限性。我们提出了一种CTC辅助的上下文自动语音识别模型,通过有效的过滤算法提升了识别稀有长尾词汇的准确性。实验证明,该模型在Librispeech测试集上显著提高了识别性能,相较于基线模型和其他相关工作,展现出强大的潜在影响。
Nov, 2024