Jan, 2022
MeMViT: 基于记忆增强的多尺度视觉 Transformer,用于有效的长期视频识别
MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition
Chao-Yuan Wu, Yanghao Li, Karttikeya Mangalam, Haoqi Fan, Bo Xiong...
TL;DR本文提出了一种在线处理视频并在迭代过程中缓存 “记忆” 的新策略,基于此构建了一个具有 30 倍增强的时间支持的存储器增强多尺度视觉变压器 ——MeMViT,可以比传统方法少使用 99.5%的计算资源,且在各种情况下实现了状态下最先进的识别准确率,尤其是在行动预测数据集方面。