Apr, 2022

视觉和语言知识蒸馏的端到端零样本HOI检测

TL;DR本研究提出了一种基于视觉-语言知识蒸馏的全新的端到端零样本人-物交互检测(EoID)框架,旨在通过利用看到和看不到人-物交互之间的联系,发现潜在的人-物交互并识别出新的人-物交互类别,实现未知类别的人-物交互检测。大量实验结果表明,该模型不仅能够在 HICO-Det 数据集上具体实现,而且在相关指标上表现卓越,具有很好的实用价值。