精确赋能，过度分散：动态注入语言模型中的视觉问答知识

Jun, 2024

精确赋能，过度分散：动态注入语言模型中的视觉问答知识

Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models

Manas Jhalani, Annervaz K M, Pushpak Bhattacharyya

TL;DR通过提供来自知识图谱中提取的相关外部知识，我们通过增强问题并实现可变数量的三元组，为知识增强的视觉问答模型带来了平均4.75％的准确匹配得分提升，并展示了其在推理能力和泛化能力方面的优势。

Abstract

In the realm of multimodal tasks, visual question answering (VQA) plays a crucial role by addressing natural language questions grounded in visual content. Knowledge-Based visual question answering (→

发现论文，激发创造

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

基于跨模态知识推理的基于知识的视觉问答

本文提出了基于多个知识图谱的知识的视觉问答模型，通过串联的 GRUC 模块，对不同模态的图像信息进行并行推理，最终利用图神经网络获得全局最优解，在三个流行基准数据集上获得新的 state-of-the-art 表现结果。

Aug, 2020

基于知识路线的视觉问答推理：深度表示嵌入的挑战

提出了一种基于知识路线的视觉问题推理 VQA 模型评估数据集，通过控制程序来选择自然场景图和外部知识库中的三元组，强制进行多步推理，并平衡答案分布，以解决现有的 VQA 模型的浅层相关问题和注释程序不均衡的问题。

Dec, 2020

选择、替换、搜索：一种新的用于知识增强视觉问答的基准测试

该研究针对现有数据集中存在的限制，建立了一个新的基于结构模式的跨模态问答数据集和挑战，同时提出了一个基于神经网络的透明的 OKVQA 系统 S3，该系统在新数据集上实现了比较好的表现。

Mar, 2021

A-OKVQA: 利用世界知识的视觉问答基准

介绍了 A-OKVQA 数据集，它包含了约 25000 个多样化的问题，需要广泛的常识和世界知识才能回答，相对于现有的基于知识的 VQA 数据集，这些问题通常不能通过简单地查询知识库来回答，而是需要对图像中所描绘的场景进行某种形式的常识推理，该数据集对几种最先进的视觉语言模型进行了基础性能测试。

Jun, 2022

基于知识的视觉问答的简单基准

这篇研究论文介绍了一种基于知识的视觉问答（KB-VQA）问题的方法，通过在上下文中进行高效的学习，使用问题相关的标题作为上下文信息，而无需训练或访问外部数据库或API，实现了最先进的准确度。

Oct, 2023

语言引导的视觉问答：使用知识丰富的提示提升多模态语言模型

对于图像中的问题，通过使用语言指导（LG）如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确；提出了一种多模态框架，使用CLIP和BLIP模型通过A-OKVQA、Science-QA、VSR和IconQA数据集的多选问题回答任务进行了基准测试，语言指导使得CLIP的性能提高了7.6%，BLIP-2的性能提高了4.8%；使用所提出的语言指导在Science-QA、VSR和IconQA数据集上也观察到了持续的性能改进。

Oct, 2023

从图像到语言：对视觉问答（VQA）方法、挑战和机遇的关键分析

通过调查Visual Question Answering（视觉问题回答）领域的复杂性，本研究提供了对VQA数据集和方法的详细分类，展示了该领域的最新趋势、挑战和改进方向，并将VQA推广到多模态问答，探索与VQA相关的任务，并提出了一系列未来研究的开放性问题。

Nov, 2023

基于知识的VQA的知识浓缩和推理

我们提出两个协同模型：知识浓缩模型和知识推理模型。这两种浓缩的知识被无缝地集成到我们的知识推理模型中，巧妙地导航综合信息以得出最终答案。与以前的方法相比，我们的方法在基于知识的VQA数据集上（OK-VQA的65.1％，A-OKVQA的60.1％）取得了最先进的性能，而不依赖GPT-3（175B）生成的知识。

Mar, 2024

基于问题分解的知识驱动和视觉推理解耦的知识图谱可视问答

我们研究了基于知识的视觉问答问题，通过将复杂问题替换为多个简单问题，从图像中提取更相关的信息来增强对图像的理解，并在三个著名的视觉问答数据集中实现了高达2%的准确率提升。

Jun, 2024