Jun, 2023

通过眼球追踪在视频中预测人 - 物交互

TL;DR本文设计了一个框架来检测并预测视频中的人 - 物交互,并提出了使用人类注视信息、场景背景和人 - 物对的视觉外观等特征进行融合的时空变换器,并在 VidHOI 数据集上进行了模型训练和验证。