Jun, 2024

扩散优化的半监督凝视跟踪 VQA 注释

TL;DR通过引入两个新的先验条件,我们提出了首个半监督的凝视追踪方法。我们利用大型预训练的视觉问答模型计算 Grad-CAM 热图,并通过修正扩散模型中的反向采样过程来改进热图。我们的方法在 GazeFollow 图像数据集上胜过简单的伪标注生成基线,并将注释需求降低了 50%。在 VideoAttentionTarget 数据集上,我们的方法也取得了最好的表现。