Mar, 2024

ViTGaze:视觉 Transformer 中的交互特征目光追踪

TL;DR基于 Vision Transformers 和自注意力机制,我们提出了一种新的单模态注视跟踪框架 ViTGaze,通过人 - 场景间的信息交互提高了性能,达到了最先进的性能水平。