利用代码生成的模块化视觉问答

ACLJun, 2023

Modular Visual Question Answering via Code Generation

Sanjay Subramanian, Medhini Narasimhan, Kushal Khangaonkar, Kevin Yang, Arsha Nagrani...

TL;DR我们提出的框架将视觉问答问题视为模块化代码生成，并通过 Python 程序调用和组合视觉模型的输出来提高准确性。

Abstract

We present a framework that formulates visual question answering as modular code generation. In contrast to prior work on modular approaches to VQA, our approach requires no additional training and relies on pre-trained language models (LMs), visual models pre-trained on image-caption

visual question answering modular code generation pre-trained language models vqa examples covr and gqa datasets

发现论文，激发创造

VQABQ：基础问题驱动的视觉问答

本研究提出了一种针对图像和问题的视觉问答算法，包含两个主要模块：第一个模块将问题作为输入，输出主要给定问题的基础问题；第二个模块将问题和图像作为输入，输出问题的基于文本的答案。研究将基础问题生成问题视为 LASSO 优化问题，并提出一种标准来利用这些基础问题帮助回答主要问题。经过在具有挑战性的 VQA 数据集上的验证，本研究的方法实现了最先进的准确性，在开放式任务中达到了 60.34％的准确度。

Mar, 2017

生成问题相关的字幕以帮助视觉问答

该文介绍了一种新的方法来提高视觉问题回答的性能，该方法利用深度学习的技术，结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述，并利用在线梯度方法自动确定与问题相关的描述来训练模型，实验结果表明，本方法取得了视觉问题回答领域的最新成果。

Jun, 2019

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

无需问答训练的 VQA

在视觉问答中，提出了一种无需使用带有问题和答案的图像进行训练的方法，包括生成问题图表示和制定回答过程，可实现模块化学习和新领域的拓展，并可解释其答案和提供备选答案。

Nov, 2018

生成式视觉问答

本研究探讨了一种新的方法来创建先进的视觉问答（VQA）模型，可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题，通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的组合。该研究的目的是调查几个成功的 VQA 模型的稳健性，评估它们对未来数据分布的性能。分析模型架构，识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性，这些数据可以增强 VQA 模型的稳健性，使其未来的同行能够更好地适应时间分布的变化。

Jul, 2023

VQA-Machine：掌握使用现有视觉算法回答新问题的方法

该研究提出了一种新的 co-attention 模型来利用现成的算法实现图像操作，从而达到居于最先进水平的视觉问答结果。

Dec, 2016

视觉问答的潜变量模型

本文提出使用潜在变量模型来解决视觉问答问题，将额外信息（如标题和答案类别）作为潜在变量进行训练，提高了问题回答性能。实验表明该方法在 VQA v2.0 基准测试数据集上优于其他方法。

Jan, 2021

弱监督视觉问答生成

本文提出一种弱监督视觉问答生成方法，从视觉信息和字幕中合成问答对，使用 ViLBERT 模型对其进行微调，实验结果在 VQA 数据集上表现显著优于其他先进技术。

Jun, 2023

Co-VQA: 交互子问题序列回答

本文提出了一个基于会话的视觉问答框架，包括三个组件：问话者，Oracle 和答案者，其中 ACVRM 用于答案者。通过对过程进行模拟，作者对每个问题建立了一个 SQS 来进行监督学习，实验结果表明这种方法在 VQA-CP v2 上实现了最新颖的性能。

Apr, 2022

VQA 可能只需要图片标题

本文提出了使用图像 - 标题注释与文本问题生成的神经模型自动导出 VQA 示例的方法，从而改进了 VQA 数据的质量和量，并在零样本准确性方面取得了双位数的业界领先水平。

May, 2022