具有强大 ASR 能力的 LMM 的令人尴尬的简单方法
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在 Multilingual LibriSpeech 上的实验证明,即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时,多语种 ASR 仍然可行,从而为 LLMs 在长篇音频中进行操作开辟了可能性。
Jul, 2023
基于大型语言模型的自动语音识别研究,探索了多种配置下的语音编码器、语言模型和投影模块对 ASR 性能的影响,采用三阶段训练方法实现了在中文数据集上的最佳表现,为未来 LLM 基于 ASR 系统的研究提供了实证基础和性能优化的见解。
May, 2024
本文旨在探讨将大型语言模型(LLMs)集成到自动语音识别(ASR)系统中以提高转录准确性的潜力,并通过实验表明在当前阶段,使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。
Jul, 2023
本文提出了一个综合解决方案,包括更加细致的微调方案、匹配损失用于增强模态对齐、以及训练和推理方法来减少插入错误,实验证明部分微调语音编码器和语言模型,以及使用诸如 LoRA 的参数高效方法是最具成本效益的方法,匹配损失能够提升模态对齐,而所提出的训练和推理方法则显著减少了插入错误。
Jun, 2024
提出了基于 LLM 的 ASR 模型 MaLa-ASR,可以整合从演示文稿中提取的文本关键词来提高会议内容的识别率,通过在输入提示中添加关键词,可将有偏差的词错误率(B-WER)相对减少 46.0%和 44.2%,在该数据集上取得了新的 SOTA。
Jun, 2024
我们提出了一种将指导训练的大型语言模型 (LLM) 与端到端自动语音识别 (ASR) 相结合的新方法。该方法利用 LLMs 的零 - shot 能力来提取语言信息,从而改善 ASR 性能,其中包括纠正 ASR 假设中的语法错误,并利用嵌入的语言知识进行端到端 ASR。实验证明,所提出的集成方法能够取得良好的性能改进,并且我们的方法在 LLM 基于重排序时得到了很大的好处。
Sep, 2023
Speech ReaLLM 是一种新的 ASR 架构,结合了 “解码器 - 仅” ASR 和 RNN-T,使多模式 LLM 架构能够进行实时流式处理。
Jun, 2024
该论文通过比较研究了三种常用的连接结构,包括全连接层、多头交叉注意力和 Q-Former,并对 Whisper 系列的语音编码器和 Vicuna 系列的大语言模型进行了实验,结果表明基于 Q-Former 的大语言模型相比其他连接结构在 LibriSpeech、Common Voice 和 GigaSpeech 数据集上均取得了一致且显著的词错误率降低。此外,提出了一种新颖的片段级 Q-Former,使大语言模型能够识别超过编码器限制的持续时间的语音片段,在 90 秒长的语音数据上相比其他连接结构取得了 17% 的词错误率降低。
Sep, 2023