CVPRJun, 2021

预测性视频转换器

TL;DR提出了一种名为 AVT 的模型,它是一种基于注意力机制的端到端视频建模架构,通过关注之前观察过的视频来预测未来的动作,通过在训练时同时预测视频序列中的下一个动作。与现有的时序汇聚策略相比,AVT 在保持观察到的动作的时序进展的同时捕捉了长时间的依赖性,这对于预测任务非常关键。通过广泛的实验,该研究表明 AVT 在四个流行的动作预测基准测试中达到了最佳性能:EpicKitchens-55、EpicKitchens-100、EGTEA Gaze + 和 50-Salads;并在 EpicKitchens-100 CVPR'21 挑战赛中获得了第一名。