利用视觉问答进行图像字幕排名
该文介绍了一种新的方法来提高视觉问题回答的性能,该方法利用深度学习的技术,结合语言和视觉的普适性知识来生成针对特定视觉问题的图像描述,并利用在线梯度方法自动确定与问题相关的描述来训练模型,实验结果表明,本方法取得了视觉问题回答领域的最新成果。
Jun, 2019
通过在视觉问题回答(VQA)过程中利用图像描述作为中介步骤,建立零样本设置,探索了零样本 VQA 的影响。比较了最先进的图像描述模型对于不同问题类型的 VQA 性能在结构和语义上的影响,并在 VQA 过程中提出了一种简单高效的问题驱动图像描述方法,通过提取问题关键词、为每个图像 - 问题对生成描述,并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力,在零样本设置下能够实现竞争性的 GQA 性能。
Apr, 2024
本研究提出将端到端的 VQA 分解为解释和推理两步,使用预训练的属性检测器和图像字幕模型提取图像属性和生成图像描述,然后使用推理模块将这些解释代替图像推断问题的答案。通过对热门 VQA 数据集进行实验,我们证明了该系统具备解释性和进一步提高解释质量的内在能力。
Jan, 2018
本研究提出了一种针对图像和问题的视觉问答算法,包含两个主要模块:第一个模块将问题作为输入,输出主要给定问题的基础问题;第二个模块将问题和图像作为输入,输出问题的基于文本的答案。研究将基础问题生成问题视为 LASSO 优化问题,并提出一种标准来利用这些基础问题帮助回答主要问题。经过在具有挑战性的 VQA 数据集上的验证,本研究的方法实现了最先进的准确性,在开放式任务中达到了 60.34%的准确度。
Mar, 2017
本文提出了使用图像 - 标题注释与文本问题生成的神经模型自动导出 VQA 示例的方法,从而改进了 VQA 数据的质量和量,并在零样本准确性方面取得了双位数的业界领先水平。
May, 2022
本文提出了一种基于二元分类的简单替代模型来解决视觉问答中的一些问题,并通过在 Visual7W Telling 和 VQA Real Multiple Choice 任务上的实验表明该模型的简单版本同样具有竞争力,同时,作者发现现有的视觉问答系统性能的瓶颈可能在于其对问题及答案中基础概念的不足认知,其表现相对于充分利用数据集偏见的系统并没有显著提升。
Jun, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文提出并解决了在 Visual Question Answering 中问题是否与图片相关的问题,并使用 LSTM-RNNs、VQA 模型不确定性和标题 - 问题相似性等方法,增强 VQA 模型的智能性和人性化。
Jun, 2016