AAAIMar, 2024

CLIP-Gaze:基于视觉语言模型的通用注视估计

TL;DR通过使用预训练的视觉语言模型来提高视线估计的泛化能力,本研究提出了一种名为 CLIP-Gaze 的新型框架。该框架通过在语言描述中构建视线相关特征并将其与视线无关特征相区分,采用个性化上下文优化方法进行文本提示调整,并利用视线样本之间的关系改进视线估计模型的泛化能力。对四个跨领域评估结果表明,CLIP-Gaze 方法的性能优于现有方法。