May, 2023

听取未来:音视频自我中心注视预测

TL;DR本文介绍了一种利用两种视觉和听觉模态进行 egocentric 注视预测的模型,为此我们提出了一种对比时空可分的融合方法,并采用对比损失进行表示学习。我们使用 Ego4D 和 Aria 等数据集进行了广泛的实验验证,并在先前的最新方法上进行了改进。此外,我们提供了可视化来显示注视预测结果并提供了有关音频 - 视觉表示学习的其他见解。