Oct, 2023

通过捕捉头部 - 面部 - 眼睛空间 - 时间交互上下文的端到端视频凝视估计

TL;DR我们提出了一种新的方法,Multi-Clue Gaze (MCGaze),通过在头部、面部和眼睛之间捕捉空间 - 时间交互上下文,以端到端的学习方式促进视频凝视估计,从而实现头部、面部和眼睛的线索定位任务在一个步骤中解决,并通过联合优化寻求最佳性能。