May, 2023
听取未来:音视频自我中心注视预测
Listen to Look into the Future: Audio-Visual Egocentric Gaze Anticipation
Bolin Lai, Fiona Ryan, Wenqi Jia, Miao Liu, James M. Rehg
TL;DR本文介绍了一种利用两种视觉和听觉模态进行 egocentric 注视预测的模型,为此我们提出了一种对比时空可分的融合方法,并采用对比损失进行表示学习。我们使用 Ego4D 和 Aria 等数据集进行了广泛的实验验证,并在先前的最新方法上进行了改进。此外,我们提供了可视化来显示注视预测结果并提供了有关音频 - 视觉表示学习的其他见解。