AAAIDec, 2023

面向视觉表征学习的语义感知自回归图像建模

TL;DR自主训练自回归模型在计算机视觉中的发展滞后于自然语言处理,本研究提出了一种基于语义感知的自回归图像建模方法,通过对补丁的特征相似性进行排序,将自回归建模从语义补丁扩展到非语义补丁,并探索了使用补丁特征作为预测目标的方法,实验表明该方法在图像分类、目标检测和分割等多个任务中实现了卓越的性能表现。