Nov, 2023

面向场景图生成与人物 - 物体交互检测的统一基于 Transformer 的框架

TL;DR以 Transformer 架构为基础的统一一步模型 SG2HOI + 同时实现了场景图生成和人物对象互动检测,在视觉特征的基础上生成关系三元组,并基于此预测人物对象互动,实现了显著的性能提升,超过了现有单阶段场景图生成模型和最先进的人物对象互动方法。