通过一个大型语言模型的一系列问答，将目前基于合成问题的视觉问答普及到人工书写的问题

Jan, 2024

通过一个大型语言模型的一系列问答，将目前基于合成问题的视觉问答普及到人工书写的问题

Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model

PDF

Taehee Kim, Yeongjae Cho, Heejun Shin, Yohan Jo, Dongmyung Shin

TL;DR为了解决视觉问答中复杂人类问题的性能问题，提出了一种名为 CoQAH 的新方法，利用大语言模型和基于合成数据训练的 VQA 模型之间的一系列 QA 交互来推理和推导人类问题的逻辑答案，并在 3D 渲染和胸部 X 光图像的两种人类问题类型的数据上实现了最先进的准确性。

Abstract

visual question answering (vqa) is a task where an image is given, and a series of questions are asked about the image. To build an efficient vqa

visual question answering vqa synthetic qa pairs chain of qa for human-written questions coqah

发现论文，激发创造

视觉问答模型和人类智能的认知比较研究

通过比较视觉问答模型的输出和注意力图与人类的相似之处，研究发现虽然 VQA 模型在结构和识别水平上与人类相似，但在认知推理方面仍然存在挑战。人类思维过程的分析有助于指导未来的研究，并在建模特征和架构中引入更多的认知能力。

Oct, 2023

Co-VQA: 交互子问题序列回答

本文提出了一个基于会话的视觉问答框架，包括三个组件：问话者，Oracle 和答案者，其中 ACVRM 用于答案者。通过对过程进行模拟，作者对每个问题建立了一个 SQS 来进行监督学习，实验结果表明这种方法在 VQA-CP v2 上实现了最新颖的性能。

Apr, 2022

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

WebQA：多跳和多模态 QA

本论文中，我们提出了 WebQA，它引入了一个具有挑战性的新测量标准，该标准涉及大规模最先进模型的困难之处，缺乏新颖对象的语言基础视觉表达和推理能力，但对人类来说却很简单。我们的社区挑战是创建统一的多模态推理模型，这些模型可以回答问题，而不考虑源模态，从而使我们更接近不仅查询语言知识，而且查询更丰富的视觉在线世界的数字助手。

Sep, 2021

视觉问答：方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

使用深度学习的视觉问答：调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

VQABQ：基础问题驱动的视觉问答

本研究提出了一种针对图像和问题的视觉问答算法，包含两个主要模块：第一个模块将问题作为输入，输出主要给定问题的基础问题；第二个模块将问题和图像作为输入，输出问题的基于文本的答案。研究将基础问题生成问题视为 LASSO 优化问题，并提出一种标准来利用这些基础问题帮助回答主要问题。经过在具有挑战性的 VQA 数据集上的验证，本研究的方法实现了最先进的准确性，在开放式任务中达到了 60.34％的准确度。

Mar, 2017

VQA-Machine：掌握使用现有视觉算法回答新问题的方法

该研究提出了一种新的 co-attention 模型来利用现成的算法实现图像操作，从而达到居于最先进水平的视觉问答结果。

Dec, 2016

逆向视觉问答：一个新的基准和 VQA 诊断工具

本篇文章提出了 iVQA 问题，利用变分模型来生成多样化、语法正确、与答案相关性较强的问题，并将其作为一种新型的视觉 - 语言理解基准测试。同时，还提出了使用强化学习框架来诊断现有 VQA 模型，揭示其内在缺陷的方法。

Mar, 2018