Sep, 2023

利用 CLIP 进行零样本 HOI 检测需要在多个级别进行知识蒸馏

TL;DR本文研究了零样本的人 - 物互动检测任务,采用了 CLIP 作为知识蒸馏的大规模预训练视觉 - 语言模型,在全局图像、局部区域和个体实例级别上学习人 - 物互动表示,并通过 CLIP 生成互动得分作为监督信号进行模型训练,在公共 HICO-DET 基准测试中取得了强大的性能。