Davidsonian 场景图：提升文本图像生成的细粒度评估可靠性

Oct, 2023

Davidsonian 场景图：提升文本图像生成的细粒度评估可靠性

Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-Image Generation

Jaemin Cho, Yushi Hu, Roopal Garg, Peter Anderson, Ranjay Krishna...

TL;DR评估文本到图像模型的难点在于信实性，本研究提出了一种基于问答生成的评估框架，使用预训练模型自动生成问题和答案，并通过与基于视觉问答的答案比较来评分图像的一致性，同时引入 Davidsonian Scene Graph (DSG) 作为一个模块化的方法来解决问题，最终呈现了包含 1,060 个提示的开源评估基准。

Abstract

Evaluating text-to-image models is notoriously difficult. A strong recent approach for assessing text-image faithfulness is based on qg/a (question generation and answering), which uses pre-trained foundational m

text-to-image models qg/a evaluation framework davidsonian scene graph (dsg)evaluation benchmark

发现论文，激发创造

利用场景图进行视觉问答的实证研究

本文提出了一种使用场景图和图网络进行视觉问答的方法，具有比当前最先进的视觉问答算法更清晰的架构，同时可以解释推理过程，展示了可解释的视觉问答的潜力。

Jul, 2019

视觉问答中的场景图推理

我们提出了一种基于场景图和强化学习的方法来解决视觉问答任务，实验结果表明该方法在 GQA 数据集上已达到接近人类水平的效果。

Jul, 2020

GraghVQA: 基于语言引导的图神经网络用于基于图像的视觉问答

本研究提出了一种基于场景图的自然语言问答模型 GraphVQA，该模型采用语言引导的图神经网络，并使用节点间的多次信息传递来翻译和执行自然语言问题。我们探讨了 GraphVQA 框架的设计空间，并讨论了不同设计选择的权衡。在 GQA 数据集上的实验证明，GraphVQA 明显优于现有模型（88.43% 对 94.78%）。

Apr, 2021

理解场景图在视觉问答中的作用

本文通过实验探讨使用场景图（Scene Graphs）解决视觉问答（Visual Question Answering）任务。作者采用图像 + 问题架构研究场景图的各种生成技术，建议一套训练课程以利用人类注释和自动生成的场景图，并通过构建后期融合结构来学习多个图像表示。这份研究提供了使用场景图解决 VQA 的多方面研究，是其类型中的首次探索。

Jan, 2021

SelfGraphVQA：基于自监督图神经网络的基于场景的问题回答

通过使用预训练场景图生成器从图像中提取场景图，并应用语义保持增强和自监督技术，我们引入了 SelfGraphVQA 框架，改进了图表示在视觉问答任务中的利用，从而避免昂贵和潜在有偏的注释数据，并通过图像增强创建提取图的多个视图，通过优化它们表示中的信息内容来学习联合嵌入。我们实验并证明了提取的场景图对于视觉问答非常有效，并且通过强调视觉信息的重要性来提升整体性能，为依赖场景图进行复杂推理问题的视觉问答任务提供了更实用的解决方案。

Oct, 2023

生成深度问题的语义图

该论文提出了一种深度问题生成的方法，通过构建语义级别的图表达文档全局结构，利用注意力机制和图神经网络解码，达到最先进水平，在 HotpotQA 中获得优异表现。

Apr, 2020

利用场景图知识推进手术视觉问答

通过使用场景图知识解决目前手术 VQA 系统中的问题条件偏见和融入场景感知推理两个挑战，我们提出了一种基于手术场景图的数据集 SSG-QA 和一种新颖的手术 VQA 模型 SSG-QA-Net，展示了通过将几何场景特征融入 VQA 模型设计中能够显著提高结果。

Dec, 2023

评估文本到视觉生成与图像到文本生成

通过引入 VQAScore 和 GenAI-Bench，本研究在评估生成式人工智能方面取得了重要进展，并证明了 VQAScore 与传统评估指标相比在复杂文本生成方面的可靠性和性能优势。

Apr, 2024

面向视觉问答的问题驱动图融合网络

提出了 QD-GFN 方法，利用三个图注意力网络来建立图像中的语义、空间和隐含视觉关系，并引入问题信息指导三个图的聚合过程，采用目标过滤机制消除图像中与问题不相关的对象，实验结果表明 QD-GFN 优于现有最先进的 VQA 模型，新的图聚合方法和目标过滤机制对模型的性能提升起到了重要作用。

Apr, 2022

场景文本视觉问答

本文介绍了一个新数据集，即 ST-VQA，旨在强调利用图像中文本信息的重要性。我们使用这个数据集定义了一系列难度不断增加的任务，需要利用图像中提供的上下文阅读场景文本以进行推理和生成适当的答案。我们提出了一个新的评估指标来考虑推理错误以及文本识别模块的缺陷，同时提出一系列基线方法。

May, 2019