Apr, 2024

探索基于交互语义对齐的高效视觉语言模型 HOI 检测方法

TL;DRISA-HOI 是一种新颖的 HOI 探测器,它广泛利用了 CLIP 的知识,通过对视觉和文本特征之间的交互语义进行对齐,提取图像的全局上下文和物体的局部特征来改善图像中的交互特征,并且通过跨模态融合提高动词标签的文本特征,最终在较少的训练时期内在 HICO-DET 和 V-COCO 基准上取得了竞争性的结果,并在零样本设置下超越了最先进的方法。