Apr, 2024

HOI-Ref:基于主体视角的手 - 物体交互引用

TL;DR我们提出了一种基于大规模视觉语言模型(VLMs)的 HOI-Ref 任务,该任务旨在使用 VLMs 理解自我中心图像中手和物体之间的交互。通过我们精心制作的 HOI-QA 数据集,我们训练了第一个用于 HOI-Ref 的 VLM,称为 VLM4HOI,并证明了 VLMs 在自我中心图像中具有较好的手和物体交互的识别和引用表现。