ConVQG:带有多模态引导的对比式视觉问句生成
该研究通过构建一个基于知识的 VQG 数据集 K-VQG,引入了一个知识获取的角度,并开发了一种新的 VQG 模型,实验结果表明,该模型在 K-VQG 数据集上的表现优于现有的模型。
Mar, 2022
探索了关于一张图片是如何引发常识推理和抽象事件的问题,提出了一项新颖任务视觉问题生成(VQG),该系统的任务是在展示了一张图片后提出自然而引人入胜的问题,我们提供了三个数据集,涵盖了从目标为中心到事件为中心的各种图像,其中训练数据远比现有最先进的字幕系统提供的数据更抽象,通过训练和测试几种生成和检索模型来解决 VQG 这个任务,评估结果表明,尽管这样的模型为各种图像提出了合理的问题,但与人类性能的差距仍然很大,这激发了我们进一步探索将图像与常识和语用知识联系起来的相关研究。
Mar, 2016
本文提出基于多张图片生成引人入胜的问题的方法,所建立的 MVQG 数据集以及基于端到端和双阶段体系结构的一系列基线模型表明,建立图像序列背后的故事能够使模型生成更有趣的问题。
Nov, 2022
提出了 Invertible Question Answering Network (iQAN) 框架,该框架通过对 VQA 和 VQG 任务同时训练,利用图像中的问题和答案之间的互补关系,使用对应的参数共享方案和正则项来明确 Q,A 之间的依赖关系,并且明确地指导训练过程。通过在 CLEVR 和 VQA2 数据集上的评估,我们的 iQAN 在基线上提高了 VQA 的准确性,并表明 iQAN 的双学习框架可以推广到其他 VQA 体系结构,并持续改进结果。
Sep, 2017
本文提出了一种模型,能够从单个图像中生成具有不同类型的视觉问题。通过采样最可靠的问题类型来自动生成问,该方法在两个真实世界数据集上的实验结果表明,我们的模型在正确性和多样性方面都优于最强基线。
Dec, 2016
研究文章提出了一种基于变压器编码器 - 解码器架构的孟加拉语视觉问题生成任务和多种模型变体,通过在给定图像的情况下生成孟加拉语问题,并在翻译 VQAv2.0 数据集上进行训练和评估,结果表明我们的模型能够生成语法正确和相关的问题。
Oct, 2023
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 IconQA 数据集的多选问题回答任务进行了基准测试,语言指导使得 CLIP 的性能提高了 7.6%,BLIP-2 的性能提高了 4.8%;使用所提出的语言指导在 Science-QA、VSR 和 IconQA 数据集上也观察到了持续的性能改进。
Oct, 2023
本文介绍了 Visual Question Answering——Graph Neural Network 模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。
May, 2022
本文提出了基于多个知识图谱的知识的视觉问答模型,通过串联的 GRUC 模块,对不同模态的图像信息进行并行推理,最终利用图神经网络获得全局最优解,在三个流行基准数据集上获得新的 state-of-the-art 表现结果。
Aug, 2020
我们研究了从多模态源(包含图像和文本)中自动生成问题(QG)的新问题,明显扩展了现有工作的范围,后者仅关注从文本源生成的 QG。我们提出了一个简单的解决方案,名为 MultiQG-TI,它使得仅基于文本的问题生成器能够处理视觉输入。我们通过利用图像到文本模型和光学字符识别模型来获得图像的文本描述并提取图像中的任何文本,然后将它们与输入文本一起馈送给问题生成器。在具有挑战性的 ScienceQA 数据集上,我们证明了 MultiQG-TI 在几次提示下明显优于 ChatGPT,尽管 MultiQG-TI 的可训练参数数量是 ChatGPT 的百倍少。额外的分析实验证实了 QG 所需的视觉和文本信号的必要性,并展示了各种建模选择的影响。
Jul, 2023