为解决语义空间层面和样本训练层面的不平衡问题,在场景图生成中提出了一种名为 DB-SGG 的有效框架,通过语义去偏见和平衡谓词学习的组件集成,超过 Transformer 136.3%、119.5%和 122.6%的 mR@20,在三个场景图生成子任务上,应用于 SGG 模型,并在句子到图形检索和图像字幕的两个下游任务上得到验证。
Aug, 2023
通过因果推断进行对象关系预测的场景图生成方法,结合对象增强模块,在 Visual Gnome 150 数据集上取得了有效的实验结果,为决策模型的基础建模提供了巨大潜力。
Oct, 2023
本文通过因果推断方法构建了一个场景图生成的因果图,并通过传统偏差训练和反事实因果关系推断方法去除其不良偏差,最终提出了一个基于 Total Direct Effect 的无偏差 SGG 框架。
Feb, 2020
本文重点在于场景图生成(SGG)的训练数据集增强,通过引入 Feature Space Triplet Augmentation(FSTA)和 Soft Transfer 两个模块,成功提高了对具有挑战性的关系三元组的预测准确性,并在 Visual Genome 数据集中取得了较高的召回率。
Jun, 2024
通过使用预训练的视觉 - 语言模型(VLMs)增强场景图生成(SGG)模型的表示,并结合语言模型估计(LM Estimation)来解决预训练与 SGG 之间的差距,我们的方法有效地处理了词汇偏见,加强了 SGG 的表示,并获得了显著的性能提升。
Mar, 2024
本研究提出了一种基于分布式先验偏差的坚韧训练方法 (RTPB) 用于解决目前场景图生成中训练数据分布的长尾问题,并通过验证实验在 VG150 数据集上表明了其有效性和性能提升。另外,我们还设计了一种称为 Dual Transformer (DTrans) 的上下文编码骨干网络,进一步探测对象和关系的上下文信息,含有 RTPB 的 DTrans 方法性能较之现有首屈一指的方法都有很大的提升。
Jan, 2022
该研究提出了一个名为 TEMPURA 的框架,通过基于 Transformer 的序列建模,学习合成无偏差的关系表示,并使用高斯混合模型来减少视觉关系的预测不确定性,从而解决视频动态场景的场景图生成中存在的多种问题。该方法在生成更加无偏的场景图方面具有显著的优势。
Apr, 2023
本研究提出了一种基于平衡调整的场景图生成框架 ——BA-SGG,该框架通过语义平衡调整和平衡谓词学习两个组件分别对信息谓词和常见谓词之间的两种不平衡进行调整,有效提高场景图生成的性能。在 Visual Genome 数据集中,与变压器模型相比,我们的方法在三个子任务中的平均回收率分别提高了 14.3%,8.0%和 6.1%。
Aug, 2021
通过深度神经网络和知识嵌入式路由网络,结合统计相关性和语义关系之间的知识图谱,实现了场景图的生成和推理,实验证明该方法优于现有技术,解决了因为世界关系分布不均衡导致的场景图推导的难题。
Mar, 2019
提出了一种基于自学知识的场景图生成模型训练方案,使用两个关系分类器减少标注偏差和稀疏标注造成的影响,并在多个标准场景图生成任务中观察到了显著的相对改进。
Aug, 2020