Jun, 2024

MaLa-ASR: 多媒体辅助的基于 LLM 的 ASR

TL;DR提出了基于 LLM 的 ASR 模型 MaLa-ASR,可以整合从演示文稿中提取的文本关键词来提高会议内容的识别率,通过在输入提示中添加关键词,可将有偏差的词错误率(B-WER)相对减少 46.0%和 44.2%,在该数据集上取得了新的 SOTA。