- 扩展场景图边界:通过视觉 - 概念对齐和保持实现全开词汇场景图生成
提出了一种名为 OvSGTR 的统一框架,用于从整体视角实现完全开放词汇的场景图生成,并通过知识蒸馏保留视觉 - 概念对齐,综合实验结果在 Visual Genome 基准上证明了该框架的有效性和优越性。
- 图嵌入的两流场景理解
本论文提出了一种新颖的双流网络架构,通过结合图像特征流和图特征流,旨在提高图像分类和场景图生成任务的性能。利用多种数据融合方法将这两个流融合起来,以充分发挥基于图和基于图像的特征的互补优势。实验证明,该双流网络在提高图像分类准确性方面优于传 - 面向场景图生成与人物 - 物体交互检测的统一基于 Transformer 的框架
以 Transformer 架构为基础的统一一步模型 SG2HOI + 同时实现了场景图生成和人物对象互动检测,在视觉特征的基础上生成关系三元组,并基于此预测人物对象互动,实现了显著的性能提升,超过了现有单阶段场景图生成模型和最先进的人物对 - 基于边双场景图和消息传递神经网络的语义场景图生成
通过引入边缘双场景图生成(EdgeSGG)和双消息传递神经网络(DualMPNN),本论文提出了一种建模多对象关系的新方法,可以准确地预测对象之间的详细关系,并在各个场景图生成子任务中实现了显著的性能提升,同时有效缓解了长尾分布问题。
- 自适应视觉场景理解:增量场景图生成
通过引入包含三个学习场景和八个评估指标的综合连续场景图生成(CSEGG)数据集,研究深入探索现有的 SGG 方法在学习新对象时对先前对象实体和关系的保留情况,以及连续目标检测如何增强对未知对象上已知关系的泛化性能。
- 越少越好:基于基础模型的零样本局部场景图生成
通过 ELEGANT 框架,利用视觉感知、场景图生成和认知能力,提出了局部场景图生成的新任务,并通过与基础模型之间的协作和信息传递实现了零样本的局部场景图生成,从而展示了其强大的推理能力。
- 物体关系预测的逻辑偏差学习
通过因果推断进行对象关系预测的场景图生成方法,结合对象增强模块,在 Visual Gnome 150 数据集上取得了有效的实验结果,为决策模型的基础建模提供了巨大潜力。
- 使用最优输运损失进行场景图生成中的谓词分类
本研究提出了一种使用最优传输作为比较两个概率分布的方法生成场景图,以解决在数据集中关系标签分布严重不平衡时,使用交叉熵损失导致的预测偏差问题,并通过预训练模型获取单词的相似性来定义最优传输的运输成本,实验证明所提方法相对于现有方法在平均 R - STDG:一种基于深度引导的一阶段场景图生成的半师生训练范式
STDG 是一种前卫的深度引导一阶场景图生成方法,通过三个自定义模块实现,能够全面利用深度信息并显著提高一阶场景图生成基线的性能。
- MM通过三元组标定和缩减实现零样本场景图生成
为了应对现有场景图生成方法在未见过的三元组上存在的组合泛化能力差的问题,本论文提出了一种 Triplet Calibration and Reduction (T-CAR) 框架,该框架通过三元组校准损失、未见空间降低损失和上下文编码器等手 - RepSGG: 场景图生成中的实体和关系的新表示方式
提出了一种名为 RepSGG 的新型架构,将场景图生成(Scene Graph Generation)中的实体表示为查询,目标表示为键,并将它们之间的关系表示为查询和键之间的最大注意力权重,从而在提取高度代表性的特征方面具有更细粒度和灵活的 - 通过语义基础解决视觉语言任务中目标提议评估的不匹配
评估目标提议的有效性,通过仅针对由阈值筛选的注释子集进行评估,使用语义基础实现与图像字幕和人工注释的对齐,并比较当前在场景图生成基准中使用的检测器的性能对比。
- 头尾协作学习网络用于无偏场景图生成
我们提出了一个模型无关的头尾协作学习(HTCL)网络,旨在解决长尾分布谓词导致的头偏见预测的挑战,通过包括头偏好和尾偏好特征表示分支的协作来实现对头部和尾部谓词的准确识别,并提出了自监督学习方法来提高尾部偏好特征表示分支的预测能力。实验证明 - ICCV视觉关系变换器用于无偏场景图生成
近年来,场景图生成在视觉场景理解任务中受到越来越多的关注。本文提出了一种名为 VETO 的视觉关系变换器,采用新颖的实体关系编码器以捕捉实体的局部级线索,并引入一种名为 MEET 的互斥专家学习策略以消除对头部或尾部类别的偏见,实验结果表明 - ICCV无偏场景图生成的组合特征增强
我们提出了一种新颖的组合特征增强(CFA)策略,通过增加三元组特征的多样性来解决现有的偏差问题,该方法在各种场景图生成框架中都能无缝集成,并在不同指标之间取得了最新的最优性能。
- 通过去偏向性生成信息场景图
为解决语义空间层面和样本训练层面的不平衡问题,在场景图生成中提出了一种名为 DB-SGG 的有效框架,通过语义去偏见和平衡谓词学习的组件集成,超过 Transformer 136.3%、119.5%和 122.6%的 mR@20,在三个场景 - ICCV面向环境无关的复杂场景图生成的课程关系学习
通过构建不同分布环境来平衡主 - 客体对的不平衡,并采用课程学习策略平衡不同环境,我们提出了一种新颖的环境不变课程关系学习方法,可应用于现有的场景图生成方法,实验证明该方法实现了重要的改进。
- 基于超像素的交互学习改进场景图生成
最近在场景图生成 (SGG) 中的超像素相互作用学习 (SIL) 的提出,通过细粒度的超像素相互作用模型,成功解决了现有盒级方法中的粗糙相互作用问题,在不同度量标准下显著优于现有最先进方法,同时能够以即插即用的方式提升现有盒级方法的性能。
- 从配对到关系:用 Pair-Net 生成全景场景图
本文提出了一种基于 Pair Proposal Network (PPN) 的新型架构 Pair then Relation (Pair-Net),利用矩阵学习器 (matrix learner) 来过滤稀疏的主语和宾语之间的关系,通过实验 - 通过两阶段因果建模实现无偏场景图生成
本文提出了一种使用因果推理的场景图生成任务去偏置化的方法,其中包含两个阶段的因果建模,第一阶段是因果表示学习,第二阶段是自适应逻辑调整,实验结果表明该方法可以在头尾关系之间实现更好的平衡,达到最先进的性能表现。