通过两阶段因果建模实现无偏场景图生成
本文通过因果推断方法构建了一个场景图生成的因果图,并通过传统偏差训练和反事实因果关系推断方法去除其不良偏差,最终提出了一个基于 Total Direct Effect 的无偏差 SGG 框架。
Feb, 2020
该研究提出了一个名为 TEMPURA 的框架,通过基于 Transformer 的序列建模,学习合成无偏差的关系表示,并使用高斯混合模型来减少视觉关系的预测不确定性,从而解决视频动态场景的场景图生成中存在的多种问题。该方法在生成更加无偏的场景图方面具有显著的优势。
Apr, 2023
为解决语义空间层面和样本训练层面的不平衡问题,在场景图生成中提出了一种名为 DB-SGG 的有效框架,通过语义去偏见和平衡谓词学习的组件集成,超过 Transformer 136.3%、119.5%和 122.6%的 mR@20,在三个场景图生成子任务上,应用于 SGG 模型,并在句子到图形检索和图像字幕的两个下游任务上得到验证。
Aug, 2023
本研究提出了一种基于元学习的 Meta Video Scene Graph Generation (MVSGG) 框架,用于从支持集和若干查询集中构建训练数据并通过元训练和测试过程指导模型学习以针对空间时间条件偏差进行泛化,以提高视频场景图生成的泛化性能。
Jul, 2022
本文提出一种基于 PU 学习和动态标签频率估计的方法,通过有效利用标签频率从而解决场景图生成中的长尾问题和报告偏差,实现更准确的标签估计和更平衡的场景图生成。
Jul, 2021
通过利用未标注的三元组,本研究介绍了一种自我训练框架(ST-SGG),以缓解场景图生成模型在长尾问题上的困扰。同时提出了一种适用于任何现有场景图生成模型的称为 Class-specific Adaptive Thresholding with Momentum(CATM)的新型伪标记技术,并设计了一个对基于消息传递神经网络(MPNN)的场景图生成模型具有益处的图结构学习器(GSL)。实验验证了 ST-SGG 在各种场景图生成模型中的有效性,特别是在细粒度谓词类的性能提升方面。
Jan, 2024
本研究从认知角度研究解决 Scene Graph Generation 领域中偏差数据的问题,提出了一种新的解决方案 —— 建立一种基于偏差预测结果的层次认知结构,通过对结构进行模糊到精细的遍历,实现关注尾部关系的目的。该方案使用 CogTree loss 作为 Debiasing loss,可用于现有多种主流模型的性能优化。
Sep, 2020
通过使用预训练的视觉 - 语言模型(VLMs)增强场景图生成(SGG)模型的表示,并结合语言模型估计(LM Estimation)来解决预训练与 SGG 之间的差距,我们的方法有效地处理了词汇偏见,加强了 SGG 的表示,并获得了显著的性能提升。
Mar, 2024
提出了一种基于多任务学习的新型动态场景图生成模型,该模型结合了局部交互信息和全局人物行为交互信息,通过对象和帧特征之间的交互使模型更全面地理解单幅图像的视觉环境,并使用长时人体动作监督模型生成符合全局约束条件且避免不能学习尾谓词的多个场景图。实验证明了该框架的功效,不仅改善了动态场景图生成,还缓解了长尾问题。
Aug, 2023
通过利用大型语言模型和链式思维及上下文少样本学习策略,我们提出了一种新方法:用于弱监督场景图生成的大型语言模型,可以从图片标题中提取三元组并与目标数据的实体 / 谓词类对齐,有效地解决语义过度简化和低密度场景图的问题,实验证明该方法在 Recall@K 和平均 Recall@K 上相较于现有的弱监督场景图生成方法具有显著的提升,且能够以少量的训练图片进行有效的模型训练。
Oct, 2023