Nov, 2021

Swin Transformer V2:扩大容量和分辨率

TL;DR本文旨在探索大规模计算机视觉模型,并提出了三项技术来解决训练过程中的不稳定性、预训练和微调之间的分辨率差异以及对标记数据的需求量问题,成功训练了一个规模为 30 亿参数的 Swin Transformer V2 模型,在多项计算机视觉任务上取得了最佳性能表现,且训练效率远高于谷歌的类似模型。