Aug, 2022

用向量量化视觉令牌器进行遮蔽图像建模的 BEiT v2

TL;DR本文提出使用语义丰富的视觉分词器作为蒙版预测的重构目标,以将蒙版图像建模从像素级别推广到语义级别,包括矢量量化知识蒸馏、预训练 Vision Transformers 和图像聚合策略等,实现了对图像分类和语义分割的超过现有 MIM 方法的表现。