AAAINov, 2021
PeCo: 基于感知编码本的视觉 Transformer BERT 预训练
PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers
Xiaoyi Dong, Jianmin Bao, Ting Zhang, Dongdong Chen, Weiming Zhang...
TL;DR本文探讨了 BERT 预训练视觉变换器的更好预测目标,提出了学习感知预测目标的想法,并在 dVAE 训练过程中实现感知相似性的强制,使用自监督变换模型进行深度特征提取,最终得到学习到更好的视觉 token,取得了在多个任务上优于 BEiT 的性能表现。