EMNLPOct, 2022
MuRAG: 图像和文本开放式问答的多模式检索增强生成器
MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text
Wenhu Chen, Hexiang Hu, Xi Chen, Pat Verga, William W. Cohen
TL;DRMuRAG 是第一个多模态检索增强变压器,利用外部非参数多模态存储器来增强语言生成,并在 WebQA 和 MultimodalQA 两个数据集上实现了最新的准确性,优于现有模型 10-20%绝对值。