公平排序与全景场景图生成的新模型
本研究发展了基于maskrcnn-benchmark和多个流行模型的场景图像生成基准测试,并通过Visual Genome和OpenImages视觉关系检测数据集的全面研究来评估场景图像生成模型的主要特性,从而为完善图像理解模型提供了可能。
Jul, 2021
介绍了一项新的问题任务,即基于全景分割生成全景场景图(PSG);创建了一个高质量 PSG 数据集用于基准测试,并介绍了四种传统方法的改进和两种基于 Transformer 的单阶段基线;探讨了未来的挑战和发展方向。
Jul, 2022
提出了一种名为Panoptic Scene Graph generation的任务,该任务旨在分段图像并提取三元组,同时利用HiLo框架解决长尾问题和语义重叠问题,以实现无偏的PSG方法。在广泛的实验中取得了最新的实验结果,并应用于预测场景图中的盒子的场景图生成任务中,相比所有基线方法均有所改善。
Mar, 2023
本文提出了一种基于Pair Proposal Network(PPN)的新型架构Pair then Relation (Pair-Net),利用矩阵学习器(matrix learner)来过滤稀疏的主语和宾语之间的关系,通过实验分析得到了新的最佳PSG表现结果,并超越了之前的PSGFormer。
Jul, 2023
通过测量主题对象对之间的谓词预测风险,以及学习不变的谓词表示嵌入,我们提出了一种新的框架来推断潜在的有偏见注释并将其自适应地转移为一致的注释,从而显著提高了基准模型的性能,达到了最新的最佳表现,并在Panoptic场景图生成数据集上展示了很好的泛化和有效性。
Oct, 2023
从纯文本描述中生成全景场景图,通过区域分组器、实体对齐器、段合并器和标签生成器构建无显式链接、无预定义概念集的场景理解框架,有效地提高了性能和鲁棒性。
Oct, 2023
通过建立综合的真实世界视觉感知系统,我们提出并研究了一个称为全景场景图生成(PVSG)的新问题。PVSG与现有的视频场景图生成(VidSGG)问题相关,后者侧重于视频中的人与物体之间的时间交互,并基于边界框进行实体识别。然而,边界框在检测非刚性物体和背景方面的局限性常常导致VidSGG遗漏关键细节,而PVSG则要求场景图中的节点由更精确的像素级分割掩码实体识别,以促进整体场景理解。为了推动这一新领域的研究,我们贡献了PVSG数据集,其中包含400个视频(289个第三人称视频+111个自我中心视频),包含150K帧用于全景分割掩码以及精细的时间场景图。我们还提供了各种基准方法,并分享了未来工作的有用设计实践。
Nov, 2023
本文介绍了一种新的基于Transformer的方法,称为DSGG,将场景图检测视为基于一组独特的图感知查询的直接图预测问题,并采用放松子图匹配的方式获取图节点及其关系的紧凑表示,以及通过关系蒸馏策略来解决关系语义重叠问题。实验结果表明,该模型在场景图生成任务上取得了最先进的结果,在mR@50和mR@100方面分别取得了3.5%和6.7%的显著改进,在全景场景图生成任务上甚至取得了8.5%和10.3%的更大改进。
Mar, 2024
基于全景分割掩码,我们提出了一种模型不可知的课程形状感知特征学习策略,将形状感知特征与Panoptic Scene Graph Generation相结合,并采用易于困难的方式整合形状感知特征,通过在训练过程中区分学习难度不同的谓词组,并利用知识蒸馏保留早期阶段获取的知识,我们证明了我们提出的方法在两个全景场景图生成任务中以及鲁棒性和零样本上的优越性和鲁棒性。
Jul, 2024
本研究旨在通过利用大型多模态模型(LMMs)实现自适应关系预测的开放场景图生成任务(OpenPSG),通过引入关系查询变压器以有效提取对象对的视觉特征并估计它们之间的关系存在,然后通过滤除无关的对象对来提高预测效率,在Panoptic Scene Graph Generation (PSG) 中自适应地执行开放集关系预测,实验证明我们的方法在开放集关系预测和全景场景图生成方面取得了最先进的性能。
Jul, 2024