通过大型视觉语言模型生成面向人物 - 物体交互检测的人类中心视觉线索

Nov, 2023

通过大型视觉语言模型生成面向人物 - 物体交互检测的人类中心视觉线索

Generating Human-Centric Visual Cues for Human-Object Interaction Detection via Large Vision-Language Models

Yu-Wei Zhan, Fan Liu, Xin Luo, Liqiang Nie, Xin-Shun Xu...

TL;DR在这篇论文中，我们提出了三个用于生成图像中的人类中心视觉线索的提示，并结合了多人的多视角来生成丰富的人类中心视觉线索，以用于人物 - 物体交互检测，我们的实验证明了利用这些生成的人类中心视觉线索进行交互检测的有效性，而我们提出的模型在两个广泛使用的数据集上的实验结果表明其在现有最先进方法上的优越性。

Abstract

Human-object interaction (HOI) detection aims at detecting human-object pairs and predicting their interactions. However, the complexity of human behavior and the diverse contexts in which these interactions occur make it challenging. Intuitively, human-centric visual cues, such as the

human-object interaction detection human-centric visual cues multitower architecture transformer-based multimodal fusion module state-of-the-art methods

发现论文，激发创造

通过视觉语言集成实现零样本人 - 物体交互检测

本研究提出了一种名为 KI2HOI 的新型框架，用于有效整合视觉语言模型的知识，从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式，设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外，创新的交互表示解码器通过交叉注意机制，有效地提取信息丰富的区域。为了处理低数据中的零样本学习，利用 CLIP 文本编码器的先验知识，为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明，我们的模型在各种零样本和全监督设置上优于以前的方法。

Mar, 2024

探索大型基础模型在开放词汇 HOI 检测中的潜力

通过引入条件多级解码和细粒度语义增强（CMD-SE）的新型端到端开放词汇 HOI 检测框架，利用视觉 - 语言模型 (VLMs)，本研究模拟不同距离的人 - 物对的不同特征图级别，进一步利用大型语言模型（LLMs）生成人体部位状态的描述，以改进人体与物体的交互识别，并在 SWIG-HOI 和 HICO-DET 两个数据集上取得了领先的开放词汇 HOI 检测结果。

Apr, 2024

基于基础模型的空间提示学习的通用人物 - 物体交互关系检测器

在开放世界环境下，通过使用视觉语言（VL）基础模型和大型语言模型（LLMs），本研究探索了通用交互识别的方法，并通过进行深度分析和高级关系提取等设计，以实现超越现有方法的开放类别交互识别。

Nov, 2023

人物 - 物体交互检测的可视化组成学习

本论文提出了一种深度可视化组合学习 (VCL) 框架，通过分解和组合 HOI 表示来解决 HOI 检测中的长尾分布问题，共享不同 HOI 样本和图像之间的对象和谓词特征，并生成新的交互样本和新类型的 HOI，从而显著缓解了低样本或零样本的 HOI 检测问题。在 HICO-DET 和 V-COCO 数据集上的实验证明了该方法的有效性，并且在 HICO-DET 上优于最新的最优方法。

Jul, 2020

按照意图交互：意图驱动的人 - 物交互检测

该研究探索了基于人体姿态、注视和距离等因素实现社交场景下人和物体之间相互作用识别的方法，并针对误分类问题提出硬负样本采样策略。在两个基准数据集，即 V-COCO 和 HICO-DET 上进行实验并验证了各个组件的有效性。

Aug, 2018

使用交互点学习人 - 物交互检测

本文提出了一种基于全卷积的去检测人 - 物交互的新方法，该方法利用相互作用点直接定位和分类相互作用，并结合密集的相互作用向量，将相互作用与人和物的检测相结合，以获得最终的预测结果。该方法在 V-COCO 和 HICO-DET 两个常用基准上均取得了最新的最佳表现。

Mar, 2020

通过眼球追踪在视频中预测人 - 物交互

本文设计了一个框架来检测并预测视频中的人 - 物交互，并提出了使用人类注视信息、场景背景和人 - 物对的视觉外观等特征进行融合的时空变换器，并在 VidHOI 数据集上进行了模型训练和验证。

Jun, 2023

通过虚拟图像学习改进人物 - 物体交互检测

本文提出了一种基于虚拟图像学习的方法来解决人 - 物交互检测任务中类别分布不平衡的问题，通过借助虚拟图像和真实图像训练模型，构建伪标签以及结合现有方法进行训练，取得了显著改进并实现了新的最先进结果。

Aug, 2023

使用物体引导交叉模态校准语义检测人物与物体互动

该研究旨在增强终端到终端的 HOI 检测模型，具体实现方法是利用基于对象的统计先验知识并生成跨模态感知的视觉和语义特征，建立了一种基于对象的跨模态校准网络（OCN），结果显示其更好的动词预测能力和更强的利用先验知识的方法比起基于并行检测和动词分类预测模型有更高的准确性。

Feb, 2022

探索人物 - 物体交互中的谓词视觉环境

通过可视化和精心设计的实验，我们研究了 DETR 框架在人物 - 物体交互研究中的问题，并通过增强图像特征的方式，改进了模型的谓词视觉上下文，从而在 HICO-DET 和 V-COCO 基准上超过了最先进的方法，同时保持了较低的训练成本。

Aug, 2023