多模态查询的端到端知识检索
我们提出了一种创新的端到端生成框架,用于多模态知识检索,通过利用大型语言模型 (LLMs) 作为虚拟知识库,使用对象感知的前缀调优技术来指导多粒度视觉学习,将多粒度视觉特征对齐到 LLM 的文本特征空间中,通过统一格式的指令数据构建模型训练,最后,我们提出了知识引导的生成策略,在解码步骤中施加先验约束,促进独特知识线索的生成,在三个基准测试中实验证明,与强基线方法相比,在所有评估指标上均取得了 3.0% 到 14.6% 的显著改进。
Jan, 2024
基于知识的视觉问答(VQA)涉及使用多模态知识库的信息检索,命名实体的多样化视觉表现使其难以识别,我们认为跨模态检索可能有助于弥合实体与其描述之间的语义差距,对单模态检索产生互补作用,通过对最近的 ViQuAE、InfoSeek 和 Encyclopedic-VQA 数据集上的实验,我们提供了经验证据。此外,我们研究了三种不同的模型微调策略:单模态、跨模态或联合训练。我们的方法结合了单模态和跨模态检索,与三个数据集上的数十亿参数模型相竞争,同时在概念上更简单、计算上更廉价。
Jan, 2024
本文提出了一种交叉模态检索系统,利用图像和文本编码,实现了同时检索模态的功能,避免了需要为每个模态使用不同网络的缺点。在所使用的知识中,本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。
Jul, 2018
本文提出了一种基于 fine-tuning 的框架,将任何预先训练的文本 - 图像多模态模型转换为高效的检索模型,并通过 cooperative retrieve-and-rerank 方法结合双网络和交叉编码器,实现更准确、更高效的跨模态检索。
Mar, 2021
本文提出了一种端到端检索增强的视觉语言模型(REVEAL),它可以将世界知识编码到大规模存储器中,并从中检索以回答知识密集型查询。
Dec, 2022
本文提出了 MoRe 框架,使用多模态检索方法,结合文本和图像信息进行命名实体识别和关系抽取,并使用 Mixture of Experts 模块以获得最终决策。在实验中,MoRe 模型达到了四个多模态实体识别数据集和一个多模态关系抽取数据集的最佳性能,证明了结合文本和视觉提示在这些任务中对提高性能具有实际意义。
Dec, 2022
本文研究了外部知识可视化问题回答的一类任务,提出了一种自动数据生成流程以预训练用于 OK-VQA 任务的通道检索模型,该方法相较于当前最先进的不对称体系结构提供了 26.9%的 Precision@5 改进,并且在零 - shot 检索方案中表现出良好的能力。
Jun, 2023
Fine-grained Late-interaction Multi-modal Retrieval (FLMR) significantly improves knowledge retrieval in Retrieval-Augmented Visual Question Answering (RA-VQA) by addressing limitations in the retriever and achieving approximately 8% improvement in PRRecall@5. Equipped with state-of-the-art models, RA-VQA achieves around 61% VQA score in the OK-VQA dataset.
Sep, 2023
提出 kNN-LM 和跨注意力技术两种方法的多模态检索,证明了其在语音识别任务上优于基于文本的检索方法,对多模态语言模型基准线具有最高水平的识别结果。
Jun, 2024