- CVPRMuKEA: 基于多模态知识提取和累积的基于知识的视觉问答
本研究提出了一种用于视觉问答的多模态知识表示方法 (MuKEA),通过明确的三元组来关联视觉对象和事实答案,从而构建视觉相关和可解释的多模态知识,该方法可以有效提高对知识的需求的数据集上的表现。
- BLIP: 为实现统一的视觉语言理解与生成,引入语言 - 图像引导预训练
本文提出了 BLIP 作为新的 VLP 框架,通过引入 captioner 生成合成字幕,并使用 filter 删除噪音数据,能灵活地传输视觉语言理解和生成任务,获得了在一系列视觉语言任务中最先进的结果,同时在零样本任务中也表现出极强的泛化 - ACL良好的提示价值数百万个参数:面向低资源的基于提示的视觉语言模型学习
本论文研究了基于 prompt 的低资源视觉语言(VL)任务 few-shot 学习。 对大规模预训练的 VL 模型进行了实验,证明 FewVLM 在 VQA 任务上的效果优于 Frozen,而且能够达到比更大的模型 PICa 相当的结果。
- CVPR利用胶囊网络进行弱监督的视觉问答
本研究提出了一种视觉胶囊模块,并使用基于查询的胶囊特征选择机制,在仅使用 VQA 任务的情况下弱监督地培训相关视觉实体的基础上,演示了将该模块集成到现有的 VQA 系统中如何显著提高其性能,并在 CLEVR-Answers 基准测试和 GQ - KRISP: 整合隐式与符号知识用于开放领域基于知识的视觉问答
本文研究了视觉问答中的开放域知识问题,并提出了一种结合隐式知识和符号知识表示的方法 KRISP,大大提高了模型的性能和泛化能力。
- 跨领域理解引导式图像字幕性能
本文提出了一种使用指导文本来控制图像标题关注点的方法,使用基于 Transformer 的多模态编码器来生成标题,通过使用引导文本和全球和物体级别图像特征生成早期融合表示来生成标题,指导标题模型可较好地泛化用于外部领域的图像和指导文本,提高 - ECCV利用问题类型先验知识的多重交互学习,限制视觉问答中的答案搜索空间
这篇论文提出了一种新的 VQA 模型,利用问题类型先验信息,通过利用不同联合模态方法在回答不同类型的问题时的行为之间的多重交互来优化 VQA,实验表明该方法表现最佳。
- 对比视觉语言预训练
本文提出了一种基于对比学习的无偏置视觉 - 语言预训练方法,可以在多模态表示学习中获得更好的性能,在验证集 VQA、GQA 和 NLVR2 中取得了良好的结果。
- ECCV使用视觉编码器减少视觉问答中的语言偏差
该研究提出了一种新的模型不可知的问题编码器 VGQE,它可以降低 VQA 模型对语言偏见的依赖,并提高性能。
- 通过比较竞争性解释来改进 VQA 及其解释
该研究提出了一种使用人工文本解释帮助视觉问答(VQA)系统选择正确答案的新框架,通过在人类文本解释上进行训练,VQA 系统可以构建更好的问题和视觉内容的表示,并重新计算训练集中生成或检索到的解释的置信度,该方法在 VQA 和其解释上实现了新 - CVPR反事实型视觉问答:以因果关系审视语言偏见
本文提出了一种新的因果推断框架来缓解视觉问答模型中的语言偏见,可以从整体上减少语言上对回答结果的直接影响,实验结果表明,该框架可以适用于各种 VQA 问答模型,在均衡的 VQA v2 数据集上表现稳定, 同时在语言相关的 VQA-CP 数据 - MoVie: 重温调制卷积,用于视觉计数及更多应用
本文主要研究采用 MoVie 方法实现视觉计数,该方法采用局部融合查询和图像的调制卷积,以实现隐式和整体的推理,具有较高的计数准确性和通用性,同时可拓展至其他推理任务。
- CVPR多模态图神经网络用于视觉场景联合推理
利用多模式图神经网络(MM-GNN)作为一种视觉问答(VQA)方法,通过将图像表示为由三个子图组成的图形,利用场景文本中的各种信息来提高节点特征,从而显著提高需要阅读场景文本的两项 VQA 任务的性能。
- CVPR通过子问题审视 VQA 模型:内省 VQA 模型
通过创建 Reasoning 分离的 VQA 数据集和收集 VQA- introspect 数据集,本文研究了现有 VQA 模型在感知和推理问题上的表现一致性问题,并提出一种名为 SQuINT 的方法来提高模型的一致性,同时在 VQA 的 - 为视觉问答辩护的网格特征
本文探讨了基于 Bounding Box/Region 的 Bottom-up attention 方法是否是解决 Vision and Language 任务(如视觉问答(VQA))成功的关键因素,结果发现与 grid features - EMNLP全句 VQA 的无监督关键词抽取
本文提出了一种基于无监督学习的关键词提取方法,针对自然情境 VQA 任务,旨在准确抽取包含新信息的答案关键词,并将其与已知问题信息分离开来,实验证明该方法对含全句答案的 VQA 数据集能准确抽取关键词。
- 基于视觉支持的语言学习的视觉蕴涵任务
本文介绍了一项新的推理任务 - 视觉蕴含(Visual Entailment,VE),VE 与传统的文本蕴含(Textual Entailment,TE)任务不同,它的前提是由图像定义的,而不是像 TE 任务中那样由自然语言句子定义的。在 - 基于注意力监控挖掘的视觉驻留解释性视觉问答
本文展示了使用可用的区域描述和物体注释自动获取定位监督来有效地训练具有基于解释性的可视化问题回答 (VQA) 模型,并呈现了我们的模型的训练效果,表明其生成的视觉定位效果与手动注释的效果更接近,同时实现了最先进的 VQA 准确性。
- KDD在视觉问答中识别反例
该研究引入了一个新的视觉问答任务,即识别对原问题产生不同回答的图像,并通过这一任务来评估现有的 VQA 模型。尽管作者的模型在这一任务上表现出色,但研究结果表明,现有的最先进 VQA 模型所学习的多模态表示对于这一任务的表现并没有显著贡献, - CVPR不要仅仅猜测;观察并回答:克服视觉问答的先验知识
本文提出了一个新的 VQA 模型,其中通过引入不同的先验分布来防止模型仅仅依赖训练数据中的先验信息。该模型是 GVQA,与现有 VQA 模型相比,它具有更好的泛化性能和可解释性能。