Jun, 2024

基于大型语言模型的多模态检索用于语音识别

TL;DR提出 kNN-LM 和跨注意力技术两种方法的多模态检索,证明了其在语音识别任务上优于基于文本的检索方法,对多模态语言模型基准线具有最高水平的识别结果。