ICCVOct, 2019

看和听自我的行动:我们能学到多少?

TL;DR本文提出了一种基于音频和视觉信息的厨房环境中的多模态方法,利用稀疏时间采样策略,通过音频、空间和时间流的后期融合,在 EPIC-Kitchens 数据集上实验表明多模态方法比单模态方法更好地提高了动作识别性能,特别是在动词分类上实现了 5.18% 的改进。