BloomVQA：评估层次化多模态理解

Dec, 2023

BloomVQA: Assessing Hierarchical Multi-modal Comprehension

Yunye Gong, Robik Shrestha, Jared Claypoole, Michael Cogswell, Arijit Ray...

TL;DR我们提出了一个新颖的视觉问答（VQA）数据集，基于为教育幼儿而设计的图片故事，旨在通过理解任务对视觉语言模型进行全面评估和特征化。该数据集包含不同层次的理解任务和底层认知过程，可以映射到基于图形的视觉故事表示，实现自动数据增强和模型一致性特征。我们的结果表明，尽管现有模型在低级别理解任务上取得了最大的进步，但在需要更高级理解和认知技能的高级任务上，它们普遍表现不佳，最高级别任务的 VQA 准确度下降了 38.0%。此外，目前的模型在各种情境中与人类理解的一致性模式不匹配，表明模型行为的新出现结构。

Abstract

We propose a novel vqa dataset, based on picture stories designed for educating young children, that aims to facilitate comprehensive evaluation and characterization of vision-language models on →

vqa dataset vision-language models comprehension tasks bloom's taxonomy cognitive skills

发现论文，激发创造

利用分类数据集和它们的语义层次对视觉语言模型进行开放式视觉问答基准测试

通过提出创新的评估方法并修正现有的视觉问答基准，我们的研究旨在推进我们对文本生成视觉语言模型能力的理解，提出了一种基于著名视觉分类数据集的新型视觉问答基准，可以对文本生成视觉语言模型进行细粒度评估，并与辨别性视觉语言模型进行比较。我们建议利用标签空间的语义层次结构为细粒度分类任务中的粗略答案提出自动生成的后续问题，以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。我们进行了人工评估研究，基于这项研究，我们决定采用最终的度量标准。我们将我们的基准应用于一套视觉语言模型，并详细比较了它们在对象、行为和属性分类方面的能力。我们的研究为更精确、有意义的评估奠定基础，促进了视觉语言建模领域的有针对性进展。

Feb, 2024

视觉问答作为阅读理解

本研究提出了一种基于机器阅读理解的方法，通过将视觉和文本特征统一到自然语言中以解决视觉问答中的多模态特征融合问题，并能够处理大规模外部知识库等基于知识的问题。实验结果表明，该方法在三个数据集上性能具有可比性，此为利用文本和自然语言处理技术解决视觉问答问题的一步。

Nov, 2018

视觉问答算法分析

本文分析了现有的视觉问答（VQA）算法，并使用一个新数据集进行了评估，提出了新的评估方案来补偿过度展示的问题类型，并研究了不同算法的优缺点和注意力机制的作用。

Mar, 2017

生成式视觉问答

本研究探讨了一种新的方法来创建先进的视觉问答（VQA）模型，可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题，通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的组合。该研究的目的是调查几个成功的 VQA 模型的稳健性，评估它们对未来数据分布的性能。分析模型架构，识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性，这些数据可以增强 VQA 模型的稳健性，使其未来的同行能够更好地适应时间分布的变化。

Jul, 2023

基于问题分解的知识驱动和视觉推理解耦的知识图谱可视问答

我们研究了基于知识的视觉问答问题，通过将复杂问题替换为多个简单问题，从图像中提取更相关的信息来增强对图像的理解，并在三个著名的视觉问答数据集中实现了高达 2% 的准确率提升。

Jun, 2024

重访视觉问答基线模型

本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题，并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力，同时，作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知，其表现相对于充分利用数据集偏见的系统并没有显著提升。

Jun, 2016

通向万能视觉问答模型之路：回答它们的全部问题！

该论文研究了视觉问答算法，发现现有算法在自然图像理解和推理两个领域上不能很好地综合运用。作者提出了一种新的 VQA 算法，能够在这两个领域上达到或超越现有算法的水平。

Mar, 2019

C-VQA: Visual Question Answering (VQA) v1.0 数据集的组合拆分

本文介绍了一个新的视觉问答问题设置，称为组合 VQA（Compositional VQA）。为了便于在此设置下开发模型，我们提出了一个新的 VQA 数据集的组合拆分。最后，我们在这个新设置下评估了几个现有的 VQA 模型，并显示这些模型的性能比原始 VQA 设置下降了显著的量。

Apr, 2017

基于知识的 VQA 的知识浓缩和推理

我们提出两个协同模型：知识浓缩模型和知识推理模型。这两种浓缩的知识被无缝地集成到我们的知识推理模型中，巧妙地导航综合信息以得出最终答案。与以前的方法相比，我们的方法在基于知识的 VQA 数据集上（OK-VQA 的 65.1％，A-OKVQA 的 60.1％）取得了最先进的性能，而不依赖 GPT-3（175B）生成的知识。

Mar, 2024

OpenViVQA: 越南语视觉问题回答任务、数据集和多模态融合模型

本文介绍了 OpenViVQA：首个包含越南语开放式答案的大规模 VQA 数据集，包括 11,000 + 图像和 37,000+ 问答对，并提出了三个融合图像和答案信息的方法（FST，QuMLAG 和 MLPAG），并使用这些融合的特征构建答案，旨在促进研究社区针对越南语这类低资源语言开发出更广义的算法，结果与 SOTA 模型竞争力相当。

May, 2023