AAAINov, 2021

PeCo: 基于感知编码本的视觉 Transformer BERT 预训练

TL;DR本文探讨了 BERT 预训练视觉变换器的更好预测目标,提出了学习感知预测目标的想法,并在 dVAE 训练过程中实现感知相似性的强制,使用自监督变换模型进行深度特征提取,最终得到学习到更好的视觉 token,取得了在多个任务上优于 BEiT 的性能表现。