ICCVAug, 2019

EPIC-Fusion: 基于视听时空绑定的第一人称动作识别

TL;DR提出了一种多模态融合架构,采用中层融合以及稀疏地对融合表示进行时间采样,将 RGB、Flow 和 Audio 三种模态进行融合,重点研究了多模态时间绑定,逐步改进,取得最先进的结果。