Dec, 2023

GazeCLIP: 通过文本指导提升凝视估计能力

TL;DR通过设计文本眼部协同学习框架 GazeCLIP,结合视觉注视方向的文本信号和 Contrastive Language-Image Pre-training (CLIP) 模型的优点,实现了先进的视觉注视估计准确性,并在三个具有挑战性的数据集上展示了其在性能方面的优势。