Apr, 2024

探索大型基础模型在开放词汇 HOI 检测中的潜力

TL;DR通过引入条件多级解码和细粒度语义增强(CMD-SE)的新型端到端开放词汇 HOI 检测框架,利用视觉 - 语言模型 (VLMs),本研究模拟不同距离的人 - 物对的不同特征图级别,进一步利用大型语言模型(LLMs)生成人体部位状态的描述,以改进人体与物体的交互识别,并在 SWIG-HOI 和 HICO-DET 两个数据集上取得了领先的开放词汇 HOI 检测结果。