CVPRJul, 2021

多模态时间卷积网络在自我中心视频中预测动作

TL;DR本文提出了一种基于时间卷积的层次结构多模态神经网络,不依赖于循环层实现对人类动作的预测,且通过多模态融合机制使得在处理具有 # egocentric videos# 意义的庞大数据集时达到了与最新研究相当的性能,但具有明显的时间优势。