基于多模态领域自适应的开放式视觉问答

Nov, 2019

基于多模态领域自适应的开放式视觉问答

Open-Ended Visual Question Answering by Multi-Modal Domain Adaptation

Yiming Xu, Lin Chen, Zhongwei Cheng, Lixin Duan, Jiebo Luo

TL;DR本文提出了一种新颖的 VQA 有监督多模态域自适应方法，通过考虑所有模态在一起以及单独处理每个单独模态来对齐源域和目标域的数据分布，以学习跨不同领域和模态的联合特征嵌入，通过在 VQA 2.0 和 VizWhiz 数据集上进行广泛实验，表明了我们所提出方法在这个具有挑战性的 VQA 域自适应设置中胜过了现有的最先进的方法。

Abstract

We study the problem of visual question answering (VQA) in images by exploiting supervised domain adaptation, where there is a large amount of labeled data in the source domain but only limited labeled data in th

visual question answering domain adaptation multi-modal feature embeddings state-of-the-art

发现论文，激发创造

视觉问答的跨数据集自适应

本研究提出了一种新颖的域自适应算法，通过转换目标数据集的特征，减少统计分布上的差异，以训练源数据集的视觉问答模型，最大化对目标数据集上的问题正确回答的可能性。通过在几个热门的视觉问答数据集之间进行适应性调整的实证研究，发现所提出的方法优于没有适应和其他方法，并定量和 qualitatively 分析了适应性何时最为有效。

Jun, 2018

无目标标签的多样数据集和方法的领域通用视觉问答模型

本研究通过量化视觉问答（VQA）数据集在视觉和文本空间上的领域漂移，构建并测试不同家族的 VQA 方法（经典的两流，Transformer 和神经符号方法）的鲁棒性以及现有的领域自适应方法的适用性，并设计了一种新的跨越 VQA 领域差距的自适应方法。

Mar, 2021

FashionVQA：一种特定领域的视觉问答系统

该论文训练了一个视觉问答系统，使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统，该数据集使用模板自动生成，模型的最高准确性超过了人类专家水平。

Aug, 2022

生成式视觉问答

本研究探讨了一种新的方法来创建先进的视觉问答（VQA）模型，可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题，通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的组合。该研究的目的是调查几个成功的 VQA 模型的稳健性，评估它们对未来数据分布的性能。分析模型架构，识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性，这些数据可以增强 VQA 模型的稳健性，使其未来的同行能够更好地适应时间分布的变化。

Jul, 2023

视觉问答作为阅读理解

本研究提出了一种基于机器阅读理解的方法，通过将视觉和文本特征统一到自然语言中以解决视觉问答中的多模态特征融合问题，并能够处理大规模外部知识库等基于知识的问题。实验结果表明，该方法在三个数据集上性能具有可比性，此为利用文本和自然语言处理技术解决视觉问答问题的一步。

Nov, 2018

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

视觉问答最近进展综述

该论文综述了不同方法来解决视觉问答的问题，特别是描述了各种算法提取图像特征和文本特征的方法，并讨论了评估 VQA 模型的实验，并报告了它们在各种数据集上的表现。

Sep, 2017

OpenViVQA: 越南语视觉问题回答任务、数据集和多模态融合模型

本文介绍了 OpenViVQA：首个包含越南语开放式答案的大规模 VQA 数据集，包括 11,000 + 图像和 37,000+ 问答对，并提出了三个融合图像和答案信息的方法（FST，QuMLAG 和 MLPAG），并使用这些融合的特征构建答案，旨在促进研究社区针对越南语这类低资源语言开发出更广义的算法，结果与 SOTA 模型竞争力相当。

May, 2023

WebQA：多跳和多模态 QA

本论文中，我们提出了 WebQA，它引入了一个具有挑战性的新测量标准，该标准涉及大规模最先进模型的困难之处，缺乏新颖对象的语言基础视觉表达和推理能力，但对人类来说却很简单。我们的社区挑战是创建统一的多模态推理模型，这些模型可以回答问题，而不考虑源模态，从而使我们更接近不仅查询语言知识，而且查询更丰富的视觉在线世界的数字助手。

Sep, 2021

通向万能视觉问答模型之路：回答它们的全部问题！

该论文研究了视觉问答算法，发现现有算法在自然图像理解和推理两个领域上不能很好地综合运用。作者提出了一种新的 VQA 算法，能够在这两个领域上达到或超越现有算法的水平。

Mar, 2019