CVPRMay, 2024

OED:实现一阶段端到端的动态场景图生成

TL;DRDSGG 研究主要关注于在视频的时空域中识别视觉关系。本文提出了一种称为 OED 的一阶端到端框架,它将任务重新定义为集合预测问题,并利用成对特征来表示场景图中的每个主客体对。同时,为了捕获时序依赖关系,引入了一种称为 PRM 的渐进细化模块,它能够在没有额外跟踪器或手工制作的轨迹的约束下聚合时序上下文,并实现网络的端到端优化。通过在 Action Genome 基准上进行大量实验,证明了我们设计的有效性。