May, 2021

使用Transformer进行凝视估计

TL;DR本文探讨利用变换器进行凝视估计中的效果,考虑两种形式的视觉变换器——纯变换器和混合变换器,并比较其表现。结果表明混合变换器在所有评估数据集中均表现出优异的性能,具有更少的参数,并且采用混合变换器可以在预训练情况下在所有基准测试中实现最先进的表现。