Aug, 2021

视频场景图生成的目标自适应上下文聚合

TL;DR本文提出了一种新的“检测到跟踪”范例,使用 Hierarchical Relation Tree 和 Target-adaptive Context Aggregation 分块设计,利用异构的知识从而提高视频情境图生成的效率,并在 ImageNet-VidVRD 和 Action Genome 数据集上展示了良好的表现。