CVPRMar, 2023

HOICLIP:基于视觉 - 语言模型的高阶交互动作识别知识迁移方法

TL;DR该研究提出了一种基于 CLIP 的 HOI 检测框架,通过交互解码器、知识融合块和文本编码器等模块从 CLIP 中高效地提取先验知识并实现更准确的 HOI 检测,同时建立动词分类器和利用全局 HOI 预测进行训练无关的增强,相较当前最先进方法在 HICO-Det 数据集上提高了 4.04 mAP。