Oct, 2023

Sharingan:一种基于 Transformer 的注视跟踪架构

TL;DR面部注视是人类从小培养起来的一种强大的非语言交流和社交互动方式。因此,对这种行为进行建模是一项重要任务,可以造福于从机器人学到社会学等广泛领域。本文介绍了一种基于变换器的二维注视预测架构,通过两个变种进行实验,并取得了在 GazeFollow 和 VideoAttentionTarget 数据集上的最新成果。