ECCVNov, 2017

视频中的时间关系推理

TL;DR该论文介绍了一种时间关系网络(TRN),通过对多个时间尺度上视频帧之间的时间依赖关系进行学习和推理,使卷积神经网络具有发现视频中时间关系的显着能力。经过实验证明,TRN 配备的网络可以通过仅稀疏采样的视频帧,在 Something-Something、Jester 和 Charades 数据集上准确预测人 - 物交互,并以非常有竞争力的性能识别 Jester 数据集上的各种人类手势,并在 Charades 数据集中识别日常活动,这超过了两个流网络和 3D 卷积网络的表现。进一步的分析表明,模型在视频中学习了直观和可解释的视觉常识知识。