May, 2020

基于第一人称视频的动作预测的滚动展开 LSTM

TL;DR本文提出了一种基于 Rolling-Unrolling LSTM、序列完成预训练技术和 Modality ATTention 机制的方法来预测自我中心视频中未来的行动和交互对象,并在 EPIC-Kitchens、EGTEA Gaze + 和 ActivityNet 数据集上验证了其有效性。