探索多模式 LLM 与知识密集型多模式 ASR 的潜力
提出了基于 LLM 的 ASR 模型 MaLa-ASR,可以整合从演示文稿中提取的文本关键词来提高会议内容的识别率,通过在输入提示中添加关键词,可将有偏差的词错误率(B-WER)相对减少 46.0%和 44.2%,在该数据集上取得了新的 SOTA。
Jun, 2024
本文提出了一种多模式自动语音识别模型,通过考虑附带的视觉上下文来减少口头指令的错误转录,使用了仿真的噪声环境。实验结果表明,使用多模态 ASR 模型可使任务完成的准确性得到提高。
Feb, 2023
提出一种多模态自动语音识别模型(ViLaS),能够同时或分别集成视觉和语言线索来帮助识别输入语音,提出一种训练策略,从而提高在模态不完整的测试场景中的性能,并创建一个包含视觉和语言线索的多模态 ASR 数据集(VSDial),探索融合视觉和语言的效果。在 Flickr8K 和自构架构的 VSDial 数据集上进行实证结果报告,调查跨模态融合方案,并对 VSDial 上的细粒度跨模态对齐进行分析。
May, 2023
本篇论文介绍了一个基于 Transformer 架构的音频视觉自动语音识别(AV-ASR)系统,特别关注视觉信息提供的场景背景,以支撑 ASR。我们从变换器的编码器层中提取音频特征的表示,并使用附加的跨模态多头注意层融合视频特征。此外,我们还采用多任务培训标准用于多分辨率 ASR,同时训练模型生成字符和子词级转录。实验结果表明,多分辨率训练可以加速收敛速度约 50%,并且相对于子词预测模型,单词错误率(WER)性能提高了高达 18%。此外,融合视觉信息可以改善表现,在仅使用音频模型的基础上,相对增益高达 3.76%。我们的结果可与最先进的 Listen, Attend and Spell 架构相媲美。
Apr, 2020
虚拟助手的交互通常以预定义的触发短语作为开端,我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验:首先,只使用从音频波形中获得的声学信息来训练分类器;其次,将自动语音识别(ASR)系统的解码器输出,如 1 最佳假设,作为大型语言模型(LLM)的输入特征;最后,探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型,在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模,并使用低秩适应来进行训练,在我们的数据集上进一步降低了相对误差率高达 18%。
Mar, 2024
本文研究了基于现有自然语言理解模型的语音助手中由自动语音识别误差引起的性能损失,并提出一种多模态语言理解模块,利用自监督学习从语音和文本模态中获取特征,最终通过对音频信号和文本传输进行编码来获得更好的性能。
Jun, 2023
本文旨在探讨将大型语言模型(LLMs)集成到自动语音识别(ASR)系统中以提高转录准确性的潜力,并通过实验表明在当前阶段,使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。
Jul, 2023
本研究探讨了大型语言模型(LLMs)在医学转录中提高自动语音识别(ASR)系统准确性的潜力,通过使用 PriMock57 数据集对 ASR 生成的转录进行改善,改进了一般词错误率(WER)、医学概念错误率(MC-WER)和音频流分离准确性,同时通过比较不同提示技术在日记化和纠错准确性上的有效性,发现 LLMs 特别是 Chain-of-Thought(CoT)提示技术不仅改善了现有 ASR 系统的日记化准确性,而且在医学转录领域取得了卓越表现,从而更准确地捕捉医学概念并提高转录对话的语义连贯性,这些发现表明 LLMs 在增强 ASR 输出的同时,也在转录任务中独立取得了显著成果,为改进医学 ASR 系统、提高医疗保健领域的病患记录的准确性和可靠性带来巨大的希望。
Feb, 2024