Jul, 2024

从类别到风景:一个用于视频中多人人物 - 物体交互识别的端到端框架

TL;DR提出了一种新的端到端类到场景框架 (CATS),通过分别生成各个类别的几何特征,随后将其与对应的视觉特征融合,构建一个包含增强的几何 - 视觉特征的场景交互图,以学习人与物体类别之间的关系。该方法在两个关键的人物 - 物体交互基准测试 (MPHOI-72 和 CAD-120) 中展示了最先进的性能。