生成问题相关的字幕以帮助视觉问答
提出了一种视觉和文本问题回答(VTQA)模型,该模型使用自动生成的段落式标题来丰富图像的信息以帮助正确回答视觉问题,并使用交叉融合和基于强化学习的编码器解码器模型实现跨模态融合。模型在 Visual Genome 数据集上进行训练,显著提高了现有模型的性能。
Jun, 2019
通过在视觉问题回答(VQA)过程中利用图像描述作为中介步骤,建立零样本设置,探索了零样本 VQA 的影响。比较了最先进的图像描述模型对于不同问题类型的 VQA 性能在结构和语义上的影响,并在 VQA 过程中提出了一种简单高效的问题驱动图像描述方法,通过提取问题关键词、为每个图像 - 问题对生成描述,并将问题驱动的描述传输到大型语言模型中。研究发现利用图像描述和大型语言模型的能力,在零样本设置下能够实现竞争性的 GQA 性能。
Apr, 2024
本文提出了使用图像 - 标题注释与文本问题生成的神经模型自动导出 VQA 示例的方法,从而改进了 VQA 数据的质量和量,并在零样本准确性方面取得了双位数的业界领先水平。
May, 2022
本研究将视觉问题回答任务视为 “特征提取” 模块,提取图像和标题的表征,以此为基础对图像 - 标题进行排序并提出融合模型提高图像 - 标题匹配一致性的表现。实验发现,该模型在 MSCOCO 数据集上的字幕检索提高了 7.1%,图像提取提高了 4.4%。
May, 2016
本研究探讨了一种新的方法来创建先进的视觉问答(VQA)模型,可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题,通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的组合。该研究的目的是调查几个成功的 VQA 模型的稳健性,评估它们对未来数据分布的性能。分析模型架构,识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性,这些数据可以增强 VQA 模型的稳健性,使其未来的同行能够更好地适应时间分布的变化。
Jul, 2023
本研究提出将端到端的 VQA 分解为解释和推理两步,使用预训练的属性检测器和图像字幕模型提取图像属性和生成图像描述,然后使用推理模块将这些解释代替图像推断问题的答案。通过对热门 VQA 数据集进行实验,我们证明了该系统具备解释性和进一步提高解释质量的内在能力。
Jan, 2018
研究如何使用图像和相关描述文本生成合成的 Q-A 对集合,而无需人工标注,同时利用空间金字塔图像块作为一种简单而有效的 VQA 模型替代方案。
Dec, 2020
研究了通过引入 PromptCap 这一基于控制生成描述的图像标题模型,用于解决直接使用通用标题生成模型缺乏对视觉细节描述的问题,提高了知识型视觉问答任务的准确性。
Nov, 2022