本文提出一种弱监督视觉问答生成方法,从视觉信息和字幕中合成问答对,使用 ViLBERT 模型对其进行微调,实验结果在 VQA 数据集上表现显著优于其他先进技术。
Jun, 2023
本文提出自由和开放的视觉问答(VQA)任务,旨在通过自然语言问题回答图片问题,涉及到图片理解、多种语言的回答以及数据集和评价方法。
May, 2015
研究如何使用图像和相关描述文本生成合成的 Q-A 对集合,而无需人工标注,同时利用空间金字塔图像块作为一种简单而有效的 VQA 模型替代方案。
Dec, 2020
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本研究旨在构建一个值得信赖的 AI 系统,通过为 Visual Question Answering(VQA)模型教授弃权无法回答问题的能力。研究通过提供一个名为 UNK-VQA 的全面数据集来填补这一研究空白,该数据集特别设计用于解决无法回答的问题。同时,通过对图像或问题进行有意的扰动,充分评估了多模式大型模型的零或少样本性能,并提出了解决这些无法回答问题的简单方法。这一数据集将为提升 VQA 模型的弃权能力提供一个有价值的基准,从而增加 AI 系统的可信度。
Oct, 2023
本论文提出一种基于视觉问答的方法来查询深度学习模型的行为,通过在多个医学和自然图像数据集上进行实验,证明该方法较目前方法具有相同或更高的准确度,有效地解决了深度学习方法缺乏透明性的问题。
Mar, 2020
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
本文提出了一种模型,能够从单个图像中生成具有不同类型的视觉问题。通过采样最可靠的问题类型来自动生成问,该方法在两个真实世界数据集上的实验结果表明,我们的模型在正确性和多样性方面都优于最强基线。
Dec, 2016
这篇论文调查了目前在视觉问答领域的多项研究,并提供了深入的分析和比较,包括结果、现有技术的状态、常见错误以及未来研究的可能改进点。
May, 2023
探索了关于一张图片是如何引发常识推理和抽象事件的问题,提出了一项新颖任务视觉问题生成(VQG),该系统的任务是在展示了一张图片后提出自然而引人入胜的问题,我们提供了三个数据集,涵盖了从目标为中心到事件为中心的各种图像,其中训练数据远比现有最先进的字幕系统提供的数据更抽象,通过训练和测试几种生成和检索模型来解决 VQG 这个任务,评估结果表明,尽管这样的模型为各种图像提出了合理的问题,但与人类性能的差距仍然很大,这激发了我们进一步探索将图像与常识和语用知识联系起来的相关研究。
Mar, 2016