本文批判性地审查和回顾了视觉问答算法的方法,例如文本语义的生成、物体的识别和采用共同关注的答案分类技术。
May, 2023
本文提出了一种改进的基于注意力机制的架构,其中包括一个对注意力结果和查询进行关系确定的 AoA 模块,并提出了多模态融合模块来组合视觉和文本信息,结果在 VQA-v2 基准数据集上达到了最先进的性能。
Nov, 2020
本文提出了一个名为 Question Type-guided Attention (QTA) 的方法,利用问题类型信息动态平衡从 ResNet 和 Faster R-CNN 网络中分别提取的自下而上和自上而下的视觉特征。在 TDIUC 数据集上进行了多项输入实验,并显示 QTA 显著提高了多个问题类型类别的性能,例如 “活动识别”、“效用” 和 “计数”。添加 QTA 后,我们在最先进的 MCB 模型上实现了 3%的总体准确度提高。最后,我们提出了一个多任务扩展以预测问题类型,在缺少问题类型的应用程序中推广 QTA,性能损失最小。
Apr, 2018
通过构建 Relation-VQA 数据集,并采用新颖的多步注意力模型,该论文提出了一种更好地利用图像语义知识的视觉关系事实学习框架,从而在视觉问答任务中取得了最先进的性能。
May, 2018
文章提出了一种针对医学图像的视觉问答模型,该模型能够考虑上下文并回答关于图片区域的问题,实验结果表明该方法在三个数据集上优于现有方法。
Jul, 2023
该研究提出了一种新的 co-attention 模型来利用现成的算法实现图像操作,从而达到居于最先进水平的视觉问答结果。
Dec, 2016
本文介绍了一种名为 FVTA 的新型神经网络,它利用一种分层的动态过程来确定要解答问题时需要关注的媒体和时间,可以回答问题并提供系统答案的理由。FVTA 在 MemexQA 数据集上达到了最先进的性能,MovieQA 数据集上获得了有竞争力的结果。
Jun, 2018
本文提出的方法使用图像属性和问题特征来派生知识,在只提取与问题相关的图像对象知识的同时,提供准确的答案。
Jun, 2023
本篇研究提出了一种基于注意力机制和深度神经网络的视觉问答方法,通过多模态特征嵌入策略,联合关注自由区域和检测框区域,实现更准确的图像问答。在 COCO-QA 和 VQA 数据集上测试,结果表明该方法优于现有方法。
Nov, 2017
通过开发十三种新的注意力机制和引入一种简化的分类器,基于首次在 VQA 挑战中获得第一名的模型进行改进,进行了 300 GPU 小时的大量超参数和架构搜索,我们能够实现 64.78%的评估分数,优于现有最先进的单个模型 63.15%的验证分数。
Mar, 2018