Jan, 2022

MeMViT: 基于记忆增强的多尺度视觉 Transformer,用于有效的长期视频识别

TL;DR本文提出了一种在线处理视频并在迭代过程中缓存 “记忆” 的新策略,基于此构建了一个具有 30 倍增强的时间支持的存储器增强多尺度视觉变压器 ——MeMViT,可以比传统方法少使用 99.5%的计算资源,且在各种情况下实现了状态下最先进的识别准确率,尤其是在行动预测数据集方面。