Jun, 2021

Video Swin Transformer

TL;DR本文介绍了一种针对视频领域的区域局部性 Transformer 架构,通过使用 Swin Transformer 设计来实现,同时利用预训练模型的威力,取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。