- 精确赋能,过度分散:动态注入语言模型中的视觉问答知识
通过提供来自知识图谱中提取的相关外部知识,我们通过增强问题并实现可变数量的三元组,为知识增强的视觉问答模型带来了平均 4.75%的准确匹配得分提升,并展示了其在推理能力和泛化能力方面的优势。
- Boter: 基于知识的 VQA 的知识选择和问答引导
Boter 框架是一个新型的知识选择和问答系统,通过利用多模态大型语言模型的强大感知能力,显著提升了开放域知识问答的性能,取得了 62.83%的最高准确率。
- 发现差距:面向视觉问答的知识库推理
我们分析了基于知识的视觉问答,研究问题是:1)我们能通过显式有监督检索相关知识解决知识库 - 视觉问答问题吗?2)任务特定模型和预训练语言模型在视觉和外部知识的整合以及多跳推理方面的表现如何?3)预训练语言模型的隐式知识足够用于知识库 - - 基于知识的 VQA 的知识浓缩和推理
我们提出两个协同模型:知识浓缩模型和知识推理模型。这两种浓缩的知识被无缝地集成到我们的知识推理模型中,巧妙地导航综合信息以得出最终答案。与以前的方法相比,我们的方法在基于知识的 VQA 数据集上(OK-VQA 的 65.1%,A-OKVQA - 认知视觉语言映射器:通过增强视觉知识对齐推进多模态理解
在当前大型多模态模型的研究中,我们评估和重新思考了广泛使用的视觉语言投射方法(如 Q-former 或 MLP),发现它们侧重于图像 - 文本描述的对齐,但忽略了视觉知识维度的对齐,即将视觉元素与相关知识连接起来。本文主要探索通过视觉语言知 - 基于大型语言模型的知识导向视觉问答中的模态感知集成
基于知识的视觉问答(KVQA)对于利用外部知识,如知识图谱(KGs)来回答视觉问题进行了广泛研究。本文提出了一种新颖的 LLMs 模态感知集成方法(MAIL),用于 KVQA,它巧妙地利用多模态知识进行图像理解和知识推理,并在两个基准数据集 - PreFLMR:大规模细粒度后交互多模态检索器的扩展
用于知识驱动的视觉问答的大规模多模型训练和评估框架 M2KR,通过发展 PreFLMR 模型,在一系列任务中取得了最新的最先进的结果,并研究了 PreFLMR 的扩展性行为,为未来的多模型检索系统开发提供了有用的参考。
- GeReA: 针对基于知识的视觉问答的问题感知提示标题
我们提出了一种名为 GeReA 的生成 - 推理框架,利用视觉和语言信息激活了多模态大语言模型(MLLM)作为隐式知识引擎,用于基于知识的视觉问答,它在 OK-VQA 和 A-OKVQA 数据集上的测试准确率分别为 66.5% 和 63.3 - ACL基于零样本知识生成的基于知识的视觉问答
基于预训练语言模型的知识生成方法在知识型视觉问答方面表现优于以往零样本方法,生成的知识普遍相关且有帮助。
- 基于记忆增强的多线索推理的知识驱动视觉问答
通过生成多个线索进行推理的记忆神经网络 (MCR-MemNN) 作为一种全新的框架用于视觉问答,可以更好地利用外部知识来回答更一般性的问题,并且在各模态(图像、问题和知识库)中捕捉到最相关的信息。
- EMNLP为视觉问答填补图像信息缺口:引导大规模语言模型主动提问
通过设计一种框架,使得大型语言模型能够主动提问以揭示图像中的更多细节,改进了知识驱动的视觉问答任务的性能。
- EMNLP基于知识的视觉问答的简单基准
这篇研究论文介绍了一种基于知识的视觉问答(KB-VQA)问题的方法,通过在上下文中进行高效的学习,使用问题相关的标题作为上下文信息,而无需训练或访问外部数据库或 API,实现了最先进的准确度。
- 基于开放集和知识的视觉问答与推理路径
知识引导的视觉问题回答(KB-VQA)通过外部知识库的辅助,为图像和相关的文本问题提供正确答案。本文提出了一种名为 Graph pATH rankER(GATHER)的新型 KB-VQA 框架,通过构建图、修剪和路径级别排序,不仅能够准确检 - 细粒度迟期交互多模态检索用于检索增强视觉问答
Fine-grained Late-interaction Multi-modal Retrieval (FLMR) significantly improves knowledge retrieval in Retrieval-Augme - 面向基于知识的视觉问答的多模式逆填空任务
本文提出一种基于预训练的多模态逆推理任务方法,用于解决基于知识库的视觉问答,该方法适用于不同的神经网络架构,相比于没有预训练的基准模型,检索和阅读理解的相对 MRR 和相对 F1 分别提高了 9% 和 15%。
- 基于不确定性的视觉问答:估计图像与知识库间的语义不一致性
本研究提出了一种基于语义不一致度量的新型外部知识同化方法,应用到知识型视觉问答中,旨在减少添加无关信息对问答的干扰并融合含蓄和显式知识,评估结果表明该方法具有最先进性能。
- CVPRMuKEA: 基于多模态知识提取和累积的基于知识的视觉问答
本研究提出了一种用于视觉问答的多模态知识表示方法 (MuKEA),通过明确的三元组来关联视觉对象和事实答案,从而构建视觉相关和可解释的多模态知识,该方法可以有效提高对知识的需求的数据集上的表现。
- AAAIGPT-3 对少样本基于知识的 VQA 的经验研究
使用图像描述作为提示,通过 GPT-3 来实现基于知识的多模态问题回答,采用少样本学习,使 PICa 在两个数据集中超过有监督的最先进水平。
- EMNLP基于知识的问答弱监督视觉 - 检索 - 阅读模型
本篇研究提出了一种基于知识库检索的视觉问答模型,包括视觉知识检索模型和基于分类和提取两种方式的视觉问题回答模型,并探讨了利用文本和图像进行知识检索的多种方法。实验表明,良好的知识检索模型可以显著提高在 OK-VQA 挑战赛上的视觉问题回答模 - 基于跨模态知识推理的基于知识的视觉问答
本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。