- 面向未知三元组:用于场景图生成的有效文本 - 图像联合学习
本文提出了一种 Text-Image 结合的场景图生成 (TISGG) 模型,采用联合特征学习模块和基于事实知识的精细调整模块来解决 SGG 模型中的长尾问题和无法识别的三元组问题,同时设计了平衡的学习策略。实验表明,在 Visual Ge - 多标签元加权长尾动态场景图生成
本文研究了视频场景图生成中主题和对象之间语义关系的问题,提出了一种多标签元学习框架以处理偏斜的谓词分布,改进了现有方法并在 Action Genome 和 VidOR 基准测试中表现优异。
- 使用条件查询进行单阶段视觉关系学习
本文提出了 TraCQ, 一种新的基于 Transformers 和带有条件查询的 SGG 模型,绕开多任务学习问题和组合实体配对分布,并且在使用 Visual Genome 数据集的实验中优于目前单阶段 SCG 方法和许多双阶段方法,且具 - 粒度太粗糙:一种新的数据中心方法,用于高效生成场景图
本文提出一项名为 “Efficient SGG” 的任务,旨在优先生成相关关系以及提供一个新的数据集 VG150,以支持在图像生成等下游任务中利用场景图。通过一系列实验,我们证明 VG150 数据集比通常在场景图生成方法中采用的数据集包含更 - CVPR边缘上的魔鬼:选择性四重注意力用于场景图生成
提出了 Selective Quad Attention Network(SQUAT)框架,通过边缘选择和四元关注机制完成场景图生成,解决了语境推理中背景,干扰和大量无关关系的问题,在 Visual Genome 和 Open Images - 使用 Transformer 学习场景图和图像之间的相似性
本研究通过引入对比学习框架,提出了一种用于测量图像和场景图相似性的图像 - 图形对齐方法,并且通过引入 R-Precision 作为新的评估指标,建立了基于 Visual Genome 和 Open Images 数据集的新基准。
- CVPR基于原型的嵌入网络用于场景图生成
该研究提出了一种基于原型的嵌入网络(PE-Net),使用基于原型的紧凑和独特表示模型实体 / 谓词,并在常见嵌入空间中建立实体对和谓词的匹配关系以进行关系识别,Extensive 的实验表明,该方法在 SGG 上获得更好的关系识别能力,实现 - LANDMARK: 基于语言引导的场景图生成表示增强框架
提出了一种基于语言引导的表示增强框架(LANDMARK),通过语言 - 视觉交互式模式、全局语言语境和对称谓相关性等方面学习谓词相关表示,从而在场景图生成领域中提高了性能和可兼容性。
- AAAI关系感知传递神经网络实现无偏异构场景图生成
本文提出了一种无偏差的异构场景图生成(HetSGG)框架,它使用信息传递神经网络捕捉基于谓词类型的上下文信息,包括复杂的对象间相互作用,并且通过关系感知信息传递神经网络(RMP)实现。我们的广泛评估表明,HetSGG 优于最先进的方法,在尾 - 使用符号理论来实现可扩展的场景图生成模型正则化
本研究提出了一种正则化技术,可以将符号背景知识注入深度学习模型,从而提高场景图生成模型的准确性,实现较大的背景知识规模尺度,不增加推理成本。
- CVPRNICEST: 基于噪声标签校正和训练的鲁棒场景图生成
本文提出了一种名为 NICEST 的方案,该方案包括 NICE 和 NIST 两个部分,它们可以检测并去除由于数据集噪声导致的不准确的标注,从而训练出更加公正和高质量的场景图生成模型。同时,还提出了一个新的基准 VG-OOD,用于评估场景图 - 场景图生成的自适应细粒度谓词学习
该研究提出了自适应细粒度谓词分辨学习方法,运用自适应谓词叶结点图的方法定位难以辨别的谓词并逐步规范学习,最终在 VG-SGG 和 GQA-SGG 数据集中的平均召回率上分别提高了 175%和 76%,取得了新的最佳性能。
- CVPRHL-Net:用于场景图生成的异质性学习网络
该研究提出了一种新型网络,Heterophily Learning Network(HL-Net),通过采用自适应重新加权变压器模块、关系特征传播模块和异质性感知消息传递方案来全面探索场景图中对象 / 关系之间的同质性和异质性,实现了更好的 - CVPRRU-Net: 基于正则化展开网络的场景图生成
本文提出了一种规范化展开网络 RU-Net 来改善场景图生成中的物体表示模糊和关系预测低多样性等问题,其中包括一种非常基于 unrolling message passing modules 和一种推动关系多样性的 group divers - ECCV数据传输细粒度场景图生成
本文提出了一种新颖的内外数据传输( IETrans )方法来解决场景图生成的两个数据分布问题,即长尾分布和语义歧义 。通过自动创建增强的数据集,该方法为所有谓词提供了更充分和连贯的注释,从而可应用于大规模带有 1,807 个谓词类的 SGG - CVPR堆叠式混合注意力和群组协作学习用于无偏场景图生成
本文提出了一种基于 Scene Graph Generation 的方法,使用 Stacked Hybrid-Attention network 作为编码器,Group Collaborative Learning 作为解码器优化策略,实现 - 基于分层记忆学习的场景图精细化生成
本文提出了一种新的层次记忆学习框架来解决场景图生成中的混合粗细粒度和长尾问题,通过加入概念重构和模型重构约束,将模型从简单到复杂地训练,有效提高了其在视觉基因组等数据集上的预测精度。
- 识别和理解隐含的求助需求并综合援助行动的常识推理
提出了一种利用场景图生成和常识知识的架构来检测用户隐含需求并生成一组辅助动作的方法,同时也使用情感分析来解决任务,实现了感知、决策、动作循环的嵌入。
- 场景图生成的约束结构学习
本文提出了一种使用约束结构学习和熵镜像下降方法的图像场景生成模型,相较于基于信息传递的方法,更能适应不同场景下的图像生成任务,并在各基准测试中取得了最优结果。
- AAAI使用先验偏差的抗阻力训练:朝着无偏的场景图生成
本研究提出了一种基于分布式先验偏差的坚韧训练方法 (RTPB) 用于解决目前场景图生成中训练数据分布的长尾问题,并通过验证实验在 VG150 数据集上表明了其有效性和性能提升。另外,我们还设计了一种称为 Dual Transformer (