HOI-Ref：基于主体视角的手 - 物体交互引用

Apr, 2024

HOI-Ref：基于主体视角的手 - 物体交互引用

HOI-Ref: Hand-Object Interaction Referral in Egocentric Vision

Siddhant Bansal, Michael Wray, Dima Damen

TL;DR我们提出了一种基于大规模视觉语言模型（VLMs）的 HOI-Ref 任务，该任务旨在使用 VLMs 理解自我中心图像中手和物体之间的交互。通过我们精心制作的 HOI-QA 数据集，我们训练了第一个用于 HOI-Ref 的 VLM，称为 VLM4HOI，并证明了 VLMs 在自我中心图像中具有较好的手和物体交互的识别和引用表现。

Abstract

large vision language models (VLMs) are now the de facto state-of-the-art for a number of tasks including visual question answering, recognising objects, and spatial referral. In this work, we propose the hoi-ref task

large vision language models hoi-ref task egocentric images hoi-qa dataset vlm4hoi

发现论文，激发创造

探索大型基础模型在开放词汇 HOI 检测中的潜力

通过引入条件多级解码和细粒度语义增强（CMD-SE）的新型端到端开放词汇 HOI 检测框架，利用视觉 - 语言模型 (VLMs)，本研究模拟不同距离的人 - 物对的不同特征图级别，进一步利用大型语言模型（LLMs）生成人体部位状态的描述，以改进人体与物体的交互识别，并在 SWIG-HOI 和 HICO-DET 两个数据集上取得了领先的开放词汇 HOI 检测结果。

Apr, 2024

EgoNCE++：以自我为中心的视觉 - 语言模型真正理解手 - 物互动吗？

通过提出一个名为 EgoHOIBench 的开放词汇基准测试，揭示了当前以对象为主而非时态动态的方法在精细概念上表现不佳，引入了一种新颖的针对 EgoHOI 的不对称对比目标 EgoNCE++，并改进了文本监督和视频聚合策略，有效地提高了开放词汇的 HOI 识别和动作识别任务的性能。

May, 2024

通过虚拟图像学习改进人物 - 物体交互检测

本文提出了一种基于虚拟图像学习的方法来解决人 - 物交互检测任务中类别分布不平衡的问题，通过借助虚拟图像和真实图像训练模型，构建伪标签以及结合现有方法进行训练，取得了显著改进并实现了新的最先进结果。

Aug, 2023

仅借助交互标签和语言 / 视觉 - 语言先验信息的弱监督人体 - 物体 - 交互检测

本文介绍了一种使用图像级别交互标签和预训练的视觉语言模型和大型语言模型在文献中最弱的监督设置下来处理 HOI 检测的方法，该方法包括修剪非交互式人和物体建议来提高袋内正例对的质量、查询特定人类和对象类别之间可能的交互以强制模型不要强调不太可能的交互，以及使用辅助弱监督的介词预测任务来使模型明确地推理空间。实验显示，所有贡献均可以提高 HOI 检测的性能。

Mar, 2023

通过大型视觉语言模型生成面向人物 - 物体交互检测的人类中心视觉线索

在这篇论文中，我们提出了三个用于生成图像中的人类中心视觉线索的提示，并结合了多人的多视角来生成丰富的人类中心视觉线索，以用于人物 - 物体交互检测，我们的实验证明了利用这些生成的人类中心视觉线索进行交互检测的有效性，而我们提出的模型在两个广泛使用的数据集上的实验结果表明其在现有最先进方法上的优越性。

Nov, 2023

通过视觉语言集成实现零样本人 - 物体交互检测

本研究提出了一种名为 KI2HOI 的新型框架，用于有效整合视觉语言模型的知识，从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式，设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外，创新的交互表示解码器通过交叉注意机制，有效地提取信息丰富的区域。为了处理低数据中的零样本学习，利用 CLIP 文本编码器的先验知识，为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明，我们的模型在各种零样本和全监督设置上优于以前的方法。

Mar, 2024

重新挖掘、学习和推理：探索跨模态语义相关性用于语言引导的 HOI 检测

通过结构化文本知识，我们提出了一个系统且统一的框架 (RmLR) 来提高人物 - 物体交互检测，通过分析相互作用信息的损失并生成更全面的视觉表示，设计了更精细的句子 - 词级对齐和知识传递策略以有效解决多个交互和多个文本之间的匹配问题，进而提高了对交互的理解。实验结果表明我们的方法在公共基准测试上实现了最先进的性能，并进一步分析了我们方法的各个组成部分对效果的影响，为其功效提供了洞察。

Jul, 2023

探索基于交互语义对齐的高效视觉语言模型 HOI 检测方法

ISA-HOI 是一种新颖的 HOI 探测器，它广泛利用了 CLIP 的知识，通过对视觉和文本特征之间的交互语义进行对齐，提取图像的全局上下文和物体的局部特征来改善图像中的交互特征，并且通过跨模态融合提高动词标签的文本特征，最终在较少的训练时期内在 HICO-DET 和 V-COCO 基准上取得了竞争性的结果，并在零样本设置下超越了最先进的方法。

Apr, 2024

HOI-Swap：具备手部 - 物体交互感知的视频物体交换

我们研究了在视频中精确交换物体的问题，重点关注与手交互的物体，给定一个用户提供的参考物体图像。我们提出了 HOI-Swap，一种基于扩散的视频编辑框架，通过自我监督的训练方式进行训练。该框架具有两个阶段，第一个阶段专注于单帧中的物体交换，具备 HOI 意识；模型根据物体属性的变化来调整交互模式，如手的抓取。第二阶段将单帧编辑扩展到整个序列中；我们通过对样本的运动点进行变形，并通过变形序列来生成视频。综合定性和定量评估表明，HOI-Swap 显著优于现有方法，能够提供具有逼真 HOI 的高质量视频编辑。

Jun, 2024

使用物体引导交叉模态校准语义检测人物与物体互动

该研究旨在增强终端到终端的 HOI 检测模型，具体实现方法是利用基于对象的统计先验知识并生成跨模态感知的视觉和语义特征，建立了一种基于对象的跨模态校准网络（OCN），结果显示其更好的动词预测能力和更强的利用先验知识的方法比起基于并行检测和动词分类预测模型有更高的准确性。

Feb, 2022