利用 CLIP 进行零样本 HOI 检测需要在多个级别进行知识蒸馏
该研究提出了一种基于 CLIP 的 HOI 检测框架,通过交互解码器、知识融合块和文本编码器等模块从 CLIP 中高效地提取先验知识并实现更准确的 HOI 检测,同时建立动词分类器和利用全局 HOI 预测进行训练无关的增强,相较当前最先进方法在 HICO-Det 数据集上提高了 4.04 mAP。
Mar, 2023
ISA-HOI 是一种新颖的 HOI 探测器,它广泛利用了 CLIP 的知识,通过对视觉和文本特征之间的交互语义进行对齐,提取图像的全局上下文和物体的局部特征来改善图像中的交互特征,并且通过跨模态融合提高动词标签的文本特征,最终在较少的训练时期内在 HICO-DET 和 V-COCO 基准上取得了竞争性的结果,并在零样本设置下超越了最先进的方法。
Apr, 2024
使用 CLIP-guided HOI 表示法和自学习机制的弱监督人物 - 对象交互检测方法,在 HICO-DET 和 V-COCO 数据集上表现显著好于先前工作,表明了该方法的有效性。
Mar, 2023
本研究提出了一种名为 KI2HOI 的新型框架,用于有效整合视觉语言模型的知识,从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式,设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外,创新的交互表示解码器通过交叉注意机制,有效地提取信息丰富的区域。为了处理低数据中的零样本学习,利用 CLIP 文本编码器的先验知识,为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明,我们的模型在各种零样本和全监督设置上优于以前的方法。
Mar, 2024
本研究提出了一种基于视觉 - 语言知识蒸馏的全新的端到端零样本人 - 物交互检测 (EoID) 框架,旨在通过利用看到和看不到人 - 物交互之间的联系,发现潜在的人 - 物交互并识别出新的人 - 物交互类别,实现未知类别的人 - 物交互检测。大量实验结果表明,该模型不仅能够在 HICO-Det 数据集上具体实现,而且在相关指标上表现卓越,具有很好的实用价值。
Apr, 2022
本研究旨在探索预训练视觉 - 语言模型(VLMs)在人工智能生成图像的普适检测中的潜力。我们基于 CLIP 特征开发了一种轻量级检测策略,并研究其在各种具有挑战性的场景下的性能。我们发现,与以往的观点不同,并不需要使用大量特定领域的数据集进行训练是必要且方便的。相反,通过仅利用来自单个生成模型的少量示例图像,基于 CLIP 的检测器展现出了出乎意料的泛化能力,并且在包括 Dalle-3、Midjourney v5 和 Firefly 在内的最新商业工具中具有高鲁棒性。我们在分布内数据上与 SoTA 相匹配,并在分布外数据的泛化能力(AUC 提高 6%)和受损 / 清洗数据的鲁棒性上实现了显著的改进(+ 13%)。我们的项目可以在此 https URL 找到。
Nov, 2023
我们提出了 FocusCLIP,在 CLIP 框架中整合了主题级引导 —— 一种针对特定目标的监督机制,从而在人类中心任务的零样本迁移方面取得了改进。
Mar, 2024
本论文提出了一种深度可视化组合学习 (VCL) 框架,通过分解和组合 HOI 表示来解决 HOI 检测中的长尾分布问题,共享不同 HOI 样本和图像之间的对象和谓词特征,并生成新的交互样本和新类型的 HOI,从而显著缓解了低样本或零样本的 HOI 检测问题。在 HICO-DET 和 V-COCO 数据集上的实验证明了该方法的有效性,并且在 HICO-DET 上优于最新的最优方法。
Jul, 2020
通过引入条件多级解码和细粒度语义增强(CMD-SE)的新型端到端开放词汇 HOI 检测框架,利用视觉 - 语言模型 (VLMs),本研究模拟不同距离的人 - 物对的不同特征图级别,进一步利用大型语言模型(LLMs)生成人体部位状态的描述,以改进人体与物体的交互识别,并在 SWIG-HOI 和 HICO-DET 两个数据集上取得了领先的开放词汇 HOI 检测结果。
Apr, 2024
利用 LP-CLIP 技术通过引入一个线性探测层来提高 CLIP 的鲁棒性,该技术利用 CLIP 生成的伪标签以及自训练策略进行训练,无需注释数据,能够增强模型在真实场景中应对多种不确定性和挑战的能力,并在各种数据集上实现了 SOTA 结果
Sep, 2023