多模式提示下的开放世界人物 - 物体交互检测

CVPRJun, 2024

多模式提示下的开放世界人物 - 物体交互检测

Open-World Human-Object Interaction Detection via Multi-modal Prompts

Jie Yang, Bingliang Li, Ailing Zeng, Lei Zhang, Ruimao Zhang

TL;DR我们开发了一种名为 MP-HOI 的强大的多模态基于提示的 HOI 检测器，它能够利用文本描述进行开集通用化，并通过处理描述中的高歧义，实现对开放世界中的 HOI 的检测。我们构建了一个名为 Magic-HOI 的大规模 HOI 数据集，用于促进 MP-HOI 的训练，并介绍了一个自动化流程来生成逼真的 HOI 图像，并提供了包含 100K 图像的高质量合成 HOI 数据集 SynHOI。利用这两个数据集，MP-HOI 通过统一的对比损失将 HOI 任务优化为多模态提示和对象 / 交互之间的相似度学习过程，以从大规模数据中学习可推广和可传递的对象 / 交互表示。MP-HOI 可以作为 HOI 检测器的通用模型，其词汇量超过现有专家模型的 30 倍以上。与此同时，我们的结果表明，MP-HOI 在真实世界的场景中表现出卓越的零样本能力，并在各种基准测试中始终达到新的最先进性能。

Abstract

In this paper, we develop \textbf{mp-hoi}, a powerful Multi-modal Prompt-based HOI detector designed to leverage both textual descriptions for open-set generalization and visual exemplars for handling high ambiguity in descriptions, realizing HOI detection in the open world. Specifical

mp-hoi multi-modal prompt-based hoi detector magic-hoi dataset synhoi dataset zero-shot capability

发现论文，激发创造

基于基础模型的空间提示学习的通用人物 - 物体交互关系检测器

在开放世界环境下，通过使用视觉语言（VL）基础模型和大型语言模型（LLMs），本研究探索了通用交互识别的方法，并通过进行深度分析和高级关系提取等设计，以实现超越现有方法的开放类别交互识别。

Nov, 2023

通过虚拟图像学习改进人物 - 物体交互检测

本文提出了一种基于虚拟图像学习的方法来解决人 - 物交互检测任务中类别分布不平衡的问题，通过借助虚拟图像和真实图像训练模型，构建伪标签以及结合现有方法进行训练，取得了显著改进并实现了新的最先进结果。

Aug, 2023

重新挖掘、学习和推理：探索跨模态语义相关性用于语言引导的 HOI 检测

通过结构化文本知识，我们提出了一个系统且统一的框架 (RmLR) 来提高人物 - 物体交互检测，通过分析相互作用信息的损失并生成更全面的视觉表示，设计了更精细的句子 - 词级对齐和知识传递策略以有效解决多个交互和多个文本之间的匹配问题，进而提高了对交互的理解。实验结果表明我们的方法在公共基准测试上实现了最先进的性能，并进一步分析了我们方法的各个组成部分对效果的影响，为其功效提供了洞察。

Jul, 2023

使用混合监督方法检测人与物体之间的交互

本文介绍了一种通过利用有强监督和弱监督数据相结合的方法来进行人物物品交互检测的流程，并介绍了一种交换元素技术来增加模型的鲁棒性，在 HICO-DET 数据集上的表现比同一监督模式下的最先进的弱监督和强监督方法表现更好。

Nov, 2020

利用多模态合成数据进行工业场景下自我中心人 - 物互动检测

本文针对工业环境下自我中心的人物 - 物体交互（EHOI）检测问题，提出了一种生成与注释合成图像数据的流程和工具，并发布了包含多种注释的 EgoISM-HOI 数据集。利用合成的 EHOI 数据，我们设计了一种新的方法，在 RGB 图像上预测和结合多种信号以检测 EHOI，并表明预先训练所提出的方法的性能在真实世界的数据上具有显著的提高。同时，我们公开了数据集、源代码和预训练模型，以支持该领域的研究。

Jun, 2023

HOI-M3：在情境环境中捕捉多个人物和物体的互动

该研究介绍了一种用于建模多个人与多个物体互动的新型大规模数据集 HOI-M3，通过准确的三维跟踪，从密集的 RGB 和物体安装的 IMU 输入中覆盖了 199 个序列和 181M 帧的多样化人和物体的活动。该数据集提出了两个新的数据驱动任务，并提供了强大的基线模型，用于捕捉和生成多个人与物体之间的互动。通过广泛的实验证明了该数据集对于进一步研究多个人与物体的互动和行为分析具有挑战性和重要价值。该数据集和相关代码、预训练模型将向研究社区进行传播，以供未来研究使用。

Mar, 2024

使用交互点学习人 - 物交互检测

本文提出了一种基于全卷积的去检测人 - 物交互的新方法，该方法利用相互作用点直接定位和分类相互作用，并结合密集的相互作用向量，将相互作用与人和物的检测相结合，以获得最终的预测结果。该方法在 V-COCO 和 HICO-DET 两个常用基准上均取得了最新的最佳表现。

Mar, 2020

通过视觉语言集成实现零样本人 - 物体交互检测

本研究提出了一种名为 KI2HOI 的新型框架，用于有效整合视觉语言模型的知识，从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式，设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外，创新的交互表示解码器通过交叉注意机制，有效地提取信息丰富的区域。为了处理低数据中的零样本学习，利用 CLIP 文本编码器的先验知识，为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明，我们的模型在各种零样本和全监督设置上优于以前的方法。

Mar, 2024

探索大型基础模型在开放词汇 HOI 检测中的潜力

通过引入条件多级解码和细粒度语义增强（CMD-SE）的新型端到端开放词汇 HOI 检测框架，利用视觉 - 语言模型 (VLMs)，本研究模拟不同距离的人 - 物对的不同特征图级别，进一步利用大型语言模型（LLMs）生成人体部位状态的描述，以改进人体与物体的交互识别，并在 SWIG-HOI 和 HICO-DET 两个数据集上取得了领先的开放词汇 HOI 检测结果。

Apr, 2024

使用文本图像扩散模型提升人 - 物交互检测

本文提出了一种新的 HOI 检测方案 DiffHOI，通过预先训练的文本 - 图像扩散模型增强了检测器的性能，进一步减少了对交互预测的歧义，并通过 SynHOI 数据集有效缓解现有数据集中的长尾问题，促进了交互表示的学习。

May, 2023