Jun, 2024

MaLa-ASR: 多媒体辅助的基于LLM的ASR

TL;DR提出了基于LLM的ASR模型MaLa-ASR,可以整合从演示文稿中提取的文本关键词来提高会议内容的识别率,通过在输入提示中添加关键词,可将有偏差的词错误率(B-WER)相对减少46.0%和44.2%,在该数据集上取得了新的SOTA。