CVPRMay, 2019

从对应提议中学习视频表示

TL;DR本文提出了一种名为 $CPNet$ 的神经网络模型,通过聚合可能的对应关系来学习视频表示,从而有效地将外观、长程动作与 RGB 输入混合,实现了具有时态一致性的 2D 场的演变。经过广泛的消融实验验证,$CPNet$ 在 Kinetics 上表现出了比现有方法更强的性能,并在 Something-Something 和 Jester 上实现了最新的性能表现。此外,我们还对我们的模型行为进行了分析,并证明了它对提议错误的鲁棒性。