基于凝视的视觉问答数据集用于澄清模糊的日语问题

COLINGMar, 2024

基于凝视的视觉问答数据集用于澄清模糊的日语问题

A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous Japanese Questions

Shun Inadumi, Seiya Kawano, Akishige Yuguchi, Yasutomo Kawanishi, Koichiro Yoshino

TL;DR通过利用注视信息澄清有歧义的问题，我们提出了以注视为基础的视觉问题回答数据集 (GazeVQA)，并提出了一种利用注视目标估计结果提高 GazeVQA 任务准确性的方法。实验结果显示该方法在某些情况下提高了 VQA 系统在 GazeVQA 上的表现，并识别了需要改进的 GazeVQA 任务的一些典型问题。

Abstract

situated conversations, which refer to visual information as visual question answering (VQA), often contain ambiguities caused by reliance on directive information. This problem is exacerbated because some langua

situated conversations visual question answering ambiguities gaze information vqa system

发现论文，激发创造

为视障人士提问的视觉问题提供答案

该研究介绍了用于回答图像问题的 VizWiz-VQA-Grounding 数据集，并分析了当前 SOTA 算法在识别相关视觉证据方面的不足，尤其是在处理占整个图像一小部分的高质量图像以及需要文本识别技能的视觉问题方面。

Feb, 2022

视觉问答

本文提出自由和开放的视觉问答（VQA）任务，旨在通过自然语言问题回答图片问题，涉及到图片理解、多种语言的回答以及数据集和评价方法。

May, 2015

基于注意力监控挖掘的视觉驻留解释性视觉问答

本文展示了使用可用的区域描述和物体注释自动获取定位监督来有效地训练具有基于解释性的可视化问题回答 (VQA) 模型，并呈现了我们的模型的训练效果，表明其生成的视觉定位效果与手动注释的效果更接近，同时实现了最先进的 VQA 准确性。

Aug, 2018

视觉问答：方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

基于 VQA 的视觉基础方法的负面案例分析

为解决当前 VQA 方法依赖于数据集偏见和统计相关性的问题，提出了利用视觉提示进行 VQA 模型性能优化的方法，但实现的改进并不是由于视觉提示的影响，而是正则化效应，为此提出了一种不需要外部数据注释的简单正则化方案。

Apr, 2020

VQA 疗法：通过视觉参考答案探索答案差异

视觉问答是一项关于预测图像问题答案的任务，本文引入了第一个数据集 VQAAnswerTherapy，每个视觉问题中的唯一答案都有对应的视觉依据，我们提出了两个新问题，即预测视觉问题是否有唯一答案依据以及定位所有答案依据。通过对现代算法进行基准测试，展示了它们在这些新问题上的成功和困难。

Aug, 2023

使用深度学习的视觉问答：调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

揭示 VQA 中视觉定位方法的全部潜力

视觉问题回答中的视觉定位方法试图通过增强模型对问题相关视觉信息的依赖性来提高视觉问题回答的性能。然而，在处理大规模视觉问题回答中常见的不完美图像表示时，这种对应视觉信息的假设是存在缺陷的，其与预期的真实内容之间的偏差导致了这些方法的潜在优势被严重低估，当前的评估方案存在问题。

Jan, 2024

上下文感知的目的明确视觉问答

通过引入 Context-VQA 数据集，我们发现上下文会影响问题的类型，对于满足人们的需求，尤其是在可访问性设置中，VQA 模型应该具有上下文敏感性。

Jul, 2023

开放式视觉问题回答（VQA）任务开发和评估中的瓶颈突破：“你对并不代表我错

提出了基于 Alternative Answer Sets (AAS) 的语义度量方法，通过修改现有的 VQA 算法实现多个有效答案，提高了视觉理解和组合问题回答 (GQA) 数据集的表现。

Mar, 2021