Dec, 2023

强大的视觉表达学习者:重塑 Image-GPT

TL;DR本文介绍了 D-iGPT,这是对 image-GPT 进行改进的一种方法,通过将预测目标从原始像素转移到语义标记上,实现对视觉内容的更高级理解,并通过预测可见标记来补充自回归建模,实现了更好的效果。实验证明,D-iGPT 在 ImageNet-1K 数据集上取得了令人瞩目的成绩,并在下游任务中表现出较强的泛化能力和在分布外样本上的鲁棒性。