TGIF-QA:关于视觉问答中时空推理的研究
本文提出了一种基于 Focused Dynamic Attention 模型的视觉问答方法,该方法通过结合全局特征和重点区域信息,能够更好地处理细粒度信息和语言语义,进而提高了视觉问答的表现。
Apr, 2016
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
该研究针对视频问答这一任务,提出增加bounding boxes数据集,以此为基础构建了STAGE框架,在空间和时间域上对视频进行处理,以便回答关于视频的自然语言问题,并展示了实验结果和可视化。
Apr, 2019
本文提出了名为OK-VQA的基于知识的视觉问答基准,要求使用外部知识资源来回答问题,该任务是多样的、困难的和大型的,与以前的基于知识的VQA数据集相比具有更高的难度。
May, 2019
本文提出了一种新的推理框架来填补VQA任务中视觉特征和语义线索之间的语义鸿沟,实现了特征和谓词的有效联合学习,并在三个大规模数据集上实现了其他最先进方法无法比拟的准确度,同时还提供了一种可解释的方式来理解深度神经网络在预测答案时的决策。
Oct, 2021
本文提出了一种结构化的双流注意力网络(STA)来解决视频问答(VQA),该网络可以识别视频中的长时空结构和文本特征,并将视觉与文本融合以提供准确的答案,在大规模视频QA数据集TGIF-QA上实验表明,STA可将Action,Trans,TrameQA和Count任务的最佳效果提高13.0%,13.5%,11.0%和0.3%,在Action,Trans,TrameQA任务上也比最佳竞争对手提高4.1%,4.7%和5.1%。
Jun, 2022
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用CLIP和BLIP模型通过A-OKVQA、Science-QA、VSR和IconQA数据集的多选问题回答任务进行了基准测试,语言指导使得CLIP的性能提高了7.6%,BLIP-2的性能提高了4.8%;使用所提出的语言指导在Science-QA、VSR和IconQA数据集上也观察到了持续的性能改进。
Oct, 2023
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023