语言结构作为视觉场景图生成的弱监督

CVPRMay, 2021

语言结构作为视觉场景图生成的弱监督

Linguistic Structures as Weak Supervision for Visual Scene Graph Generation

Keren Ye, Adriana Kovashka

TL;DR本文研究了在场景图生成中如何利用语言结构以及图像标题，通过弱化的监督模式提高模型性能，相比起传统的三元组监督模式，更具伸缩性且更适用于多模态数据。

Abstract

Prior work in scene graph generation requires categorical supervision at the level of triplets - subjects and objects, and predicates that relate them, either with or without bounding box information. However, sc

scene graph generation linguistic structures captions supervision multimodal data

发现论文，激发创造

具有语言结构的短语弱监督视觉定位

文章提出了一种弱监督方法，该方法以图像 - 句子对为输入，学习以空间注意力掩模的形式定位任意语言短语。我们介绍了一种端到端模型，使用两种精心设计的损失函数学习短语的视觉基础，并在句子中使用引诱的解析树结构来确保注意力掩码的补充性及组合性。

May, 2017

使用场景图将结构化表示法加入预训练视觉与语言模型

研究表明，为了改善 VL 模型的结构理解能力，场景图等结构化标注数据虽然耗时、昂贵和繁琐，但只需要小型数据集，就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现，通过直接使用场景图标签监督图像和文本编码器，以及添加专门的自适应 SG 令牌和新的适应技术来提高 SG 信息的预测。

May, 2023

对图像字幕生成所需的语言单词与视觉语义单位进行对齐

本文提出了一种结合图卷积网络（GCN）的视觉语义单元对象相互作用的图形语义和几何建模方法，利用上下文门控注意力模块将当前单词与视觉语义单元对齐，针对 MS-COCO 图像字幕数据集，与现有方法相比报告了更好的结果。

Aug, 2019

通过大型语言模型进行弱监督下的细粒度场景图生成

通过利用大型语言模型和链式思维及上下文少样本学习策略，我们提出了一种新方法：用于弱监督场景图生成的大型语言模型，可以从图片标题中提取三元组并与目标数据的实体 / 谓词类对齐，有效地解决语义过度简化和低密度场景图的问题，实验证明该方法在 Recall@K 和平均 Recall@K 上相较于现有的弱监督场景图生成方法具有显著的提升，且能够以少量的训练图片进行有效的模型训练。

Oct, 2023

基于视觉语言辅助的伪标签方法实现弱监督的三维场景图生成

通过视觉语言辅助伪标记，我们提出了 3D-VLAP，一种弱监督的三维场景图生成方法，能够对三维点云场景进行语义对齐并生成场景图，从而在减轻数据标注压力的同时实现与完全监督方法可比较的效果。

Apr, 2024

无监督视觉 - 语言解析：通过依赖关系无缝桥接视觉场景图与语言结构

本文提出了一种对视觉场景图和语言依赖树进行联合建模的无监督学习任务，并构造了一个新的数据集 VLParse，提出了基于对比学习的 VLGAE 框架用于 VL 短语理解和语言语法归纳。实验结果表明了视觉信息和语言依赖关系对于 VL 结构建模的有效性。

Mar, 2022

WeaQA: 通过标题的弱监督使视觉问答更准确

研究如何使用图像和相关描述文本生成合成的 Q-A 对集合，而无需人工标注，同时利用空间金字塔图像块作为一种简单而有效的 VQA 模型替代方案。

Dec, 2020

Cross2StrA: 无配对跨语言图像字幕生成与跨语言跨模态结构中心对齐

本文提出引入场景图和句法树来解决跨语言图像描述中存在的不相关性和表达不流畅的问题，并介绍了一种跨语言和跨模态的后向翻译训练方法，实现图像到最终描述的完全对齐，实验结果表明该模型在提高图像描述的相关性和流畅性方面表现出很大的优势。

May, 2023

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020

将视觉空间、语言和常识结构融合于故事可视化

本文讨论如何更好地将文本转化为对应的图像序列，包括利用 Transformers、constituency parse trees、commonsense 信息以及 visuo-spatial 信息，最终提高了生成图像的质量和一致性。

Oct, 2021