利用 CLIP 进行零样本 HOI 检测需要在多个级别进行知识蒸馏

Sep, 2023

利用 CLIP 进行零样本 HOI 检测需要在多个级别进行知识蒸馏

Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge Distillation at Multiple Levels

Bo Wan, Tinne Tuytelaars

TL;DR本文研究了零样本的人 - 物互动检测任务，采用了 CLIP 作为知识蒸馏的大规模预训练视觉 - 语言模型，在全局图像、局部区域和个体实例级别上学习人 - 物互动表示，并通过 CLIP 生成互动得分作为监督信号进行模型训练，在公共 HICO-DET 基准测试中取得了强大的性能。

Abstract

In this paper, we investigate the task of zero-shot human-object interaction (HOI) detection, a novel paradigm for identifying HOIs without the need for task-specific annotations. To address this challenging task, we employ clip, a large-scale pre-trained →

zero-shot human-object interaction detection clip vision-language model knowledge distillation multi-level clip knowledge integration

发现论文，激发创造

HOICLIP：基于视觉 - 语言模型的高阶交互动作识别知识迁移方法

该研究提出了一种基于 CLIP 的 HOI 检测框架，通过交互解码器、知识融合块和文本编码器等模块从 CLIP 中高效地提取先验知识并实现更准确的 HOI 检测，同时建立动词分类器和利用全局 HOI 预测进行训练无关的增强，相较当前最先进方法在 HICO-Det 数据集上提高了 4.04 mAP。

Mar, 2023

探索基于交互语义对齐的高效视觉语言模型 HOI 检测方法

ISA-HOI 是一种新颖的 HOI 探测器，它广泛利用了 CLIP 的知识，通过对视觉和文本特征之间的交互语义进行对齐，提取图像的全局上下文和物体的局部特征来改善图像中的交互特征，并且通过跨模态融合提高动词标签的文本特征，最终在较少的训练时期内在 HICO-DET 和 V-COCO 基准上取得了竞争性的结果，并在零样本设置下超越了最先进的方法。

Apr, 2024

基于先验指导的双层表示学习的弱监督 HOI 检测

使用 CLIP-guided HOI 表示法和自学习机制的弱监督人物 - 对象交互检测方法，在 HICO-DET 和 V-COCO 数据集上表现显著好于先前工作，表明了该方法的有效性。

Mar, 2023

通过视觉语言集成实现零样本人 - 物体交互检测

本研究提出了一种名为 KI2HOI 的新型框架，用于有效整合视觉语言模型的知识，从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式，设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外，创新的交互表示解码器通过交叉注意机制，有效地提取信息丰富的区域。为了处理低数据中的零样本学习，利用 CLIP 文本编码器的先验知识，为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明，我们的模型在各种零样本和全监督设置上优于以前的方法。

Mar, 2024

视觉和语言知识蒸馏的端到端零样本 HOI 检测

本研究提出了一种基于视觉 - 语言知识蒸馏的全新的端到端零样本人 - 物交互检测 (EoID) 框架，旨在通过利用看到和看不到人 - 物交互之间的联系，发现潜在的人 - 物交互并识别出新的人 - 物交互类别，实现未知类别的人 - 物交互检测。大量实验结果表明，该模型不仅能够在 HICO-Det 数据集上具体实现，而且在相关指标上表现卓越，具有很好的实用价值。

Apr, 2022

提升人工智能生成图像检测的水平与 CLIP

本研究旨在探索预训练视觉 - 语言模型（VLMs）在人工智能生成图像的普适检测中的潜力。我们基于 CLIP 特征开发了一种轻量级检测策略，并研究其在各种具有挑战性的场景下的性能。我们发现，与以往的观点不同，并不需要使用大量特定领域的数据集进行训练是必要且方便的。相反，通过仅利用来自单个生成模型的少量示例图像，基于 CLIP 的检测器展现出了出乎意料的泛化能力，并且在包括 Dalle-3、Midjourney v5 和 Firefly 在内的最新商业工具中具有高鲁棒性。我们在分布内数据上与 SoTA 相匹配，并在分布外数据的泛化能力（AUC 提高 6%）和受损 / 清洗数据的鲁棒性上实现了显著的改进（+ 13％）。我们的项目可以在此 https URL 找到。

Nov, 2023

FocusCLIP: 人类中心任务中的多模态主体级指导零样本迁移

我们提出了 FocusCLIP，在 CLIP 框架中整合了主题级引导 —— 一种针对特定目标的监督机制，从而在人类中心任务的零样本迁移方面取得了改进。

Mar, 2024

人物 - 物体交互检测的可视化组成学习

本论文提出了一种深度可视化组合学习 (VCL) 框架，通过分解和组合 HOI 表示来解决 HOI 检测中的长尾分布问题，共享不同 HOI 样本和图像之间的对象和谓词特征，并生成新的交互样本和新类型的 HOI，从而显著缓解了低样本或零样本的 HOI 检测问题。在 HICO-DET 和 V-COCO 数据集上的实验证明了该方法的有效性，并且在 HICO-DET 上优于最新的最优方法。

Jul, 2020

探索大型基础模型在开放词汇 HOI 检测中的潜力

通过引入条件多级解码和细粒度语义增强（CMD-SE）的新型端到端开放词汇 HOI 检测框架，利用视觉 - 语言模型 (VLMs)，本研究模拟不同距离的人 - 物对的不同特征图级别，进一步利用大型语言模型（LLMs）生成人体部位状态的描述，以改进人体与物体的交互识别，并在 SWIG-HOI 和 HICO-DET 两个数据集上取得了领先的开放词汇 HOI 检测结果。

Apr, 2024

使用知识蒸馏和自训练提高 CLIP 的鲁棒性

利用 LP-CLIP 技术通过引入一个线性探测层来提高 CLIP 的鲁棒性，该技术利用 CLIP 生成的伪标签以及自训练策略进行训练，无需注释数据，能够增强模型在真实场景中应对多种不确定性和挑战的能力，并在各种数据集上实现了 SOTA 结果

Sep, 2023