场景图生成中用于新组合的图密度感知损失
该研究提出了一组对比损失函数用于处理场景图解析中的实体实例混淆和近距离关系歧义问题,并提出了一种称为RelDN的关系检测器,该模型在OpenImages关系检测挑战赛中相对前一个胜出方法提升了4.7%(相对16.5%),在Visual Genome和Visual Relationship Detection数据集上的结果也得到了改善。
Mar, 2019
本研究发展了基于maskrcnn-benchmark和多个流行模型的场景图像生成基准测试,并通过Visual Genome和OpenImages视觉关系检测数据集的全面研究来评估场景图像生成模型的主要特性,从而为完善图像理解模型提供了可能。
Jul, 2021
本文提出了一种规范化展开网络RU-Net来改善场景图生成中的物体表示模糊和关系预测低多样性等问题,其中包括一种非常基于unrolling message passing modules和一种推动关系多样性的group diversity enhancement module,实验结果表明该方法在多种设置和指标下都同样有效,并在三个流行数据库上取得了新的最先进成果。
May, 2022
本文提出一项名为“Efficient SGG”的任务,旨在优先生成相关关系以及提供一个新的数据集VG150,以支持在图像生成等下游任务中利用场景图。通过一系列实验,我们证明VG150数据集比通常在场景图生成方法中采用的数据集包含更高质量和多样性的注释。
May, 2023
我们提出了一种新颖的组合特征增强(CFA)策略,通过增加三元组特征的多样性来解决现有的偏差问题,该方法在各种场景图生成框架中都能无缝集成,并在不同指标之间取得了最新的最优性能。
Aug, 2023
为了应对现有场景图生成方法在未见过的三元组上存在的组合泛化能力差的问题,本论文提出了一种Triplet Calibration and Reduction (T-CAR)框架,该框架通过三元组校准损失、未见空间降低损失和上下文编码器等手段来提高模型对未见三元组的组合泛化能力,在零样本场景图生成任务中取得了明显的改进。
Sep, 2023
本文介绍了一种新的基于Transformer的方法,称为DSGG,将场景图检测视为基于一组独特的图感知查询的直接图预测问题,并采用放松子图匹配的方式获取图节点及其关系的紧凑表示,以及通过关系蒸馏策略来解决关系语义重叠问题。实验结果表明,该模型在场景图生成任务上取得了最先进的结果,在mR@50和mR@100方面分别取得了3.5%和6.7%的显著改进,在全景场景图生成任务上甚至取得了8.5%和10.3%的更大改进。
Mar, 2024
通过使用预训练的视觉-语言模型(VLMs)增强场景图生成(SGG)模型的表示,并结合语言模型估计(LM Estimation)来解决预训练与SGG之间的差距,我们的方法有效地处理了词汇偏见,加强了SGG的表示,并获得了显著的性能提升。
Mar, 2024