Nov, 2022

UniFormerV2:将图像 ViTs 赋能视频的时空学习

TL;DR本文提出了一种用于构建视频网络家族的通用范例,通过将预训练的 Vision Transformers 与高效的 UniFormer 设计相结合,实现了理想的准确性与计算平衡,并在 8 个常见的视频基准测试中取得了最先进的识别性能。