Aug, 2023

动态场景图生成的本地 - 全局信息交互解偏差

TL;DR提出了一种基于多任务学习的新型动态场景图生成模型,该模型结合了局部交互信息和全局人物行为交互信息,通过对象和帧特征之间的交互使模型更全面地理解单幅图像的视觉环境,并使用长时人体动作监督模型生成符合全局约束条件且避免不能学习尾谓词的多个场景图。实验证明了该框架的功效,不仅改善了动态场景图生成,还缓解了长尾问题。