CVPRJun, 2024

多模式提示下的开放世界人物 - 物体交互检测

TL;DR我们开发了一种名为 MP-HOI 的强大的多模态基于提示的 HOI 检测器,它能够利用文本描述进行开集通用化,并通过处理描述中的高歧义,实现对开放世界中的 HOI 的检测。我们构建了一个名为 Magic-HOI 的大规模 HOI 数据集,用于促进 MP-HOI 的训练,并介绍了一个自动化流程来生成逼真的 HOI 图像,并提供了包含 100K 图像的高质量合成 HOI 数据集 SynHOI。利用这两个数据集,MP-HOI 通过统一的对比损失将 HOI 任务优化为多模态提示和对象 / 交互之间的相似度学习过程,以从大规模数据中学习可推广和可传递的对象 / 交互表示。MP-HOI 可以作为 HOI 检测器的通用模型,其词汇量超过现有专家模型的 30 倍以上。与此同时,我们的结果表明,MP-HOI 在真实世界的场景中表现出卓越的零样本能力,并在各种基准测试中始终达到新的最先进性能。