大规模自回归图像模型的可扩展预训练

Jan, 2024

大规模自回归图像模型的可扩展预训练

Scalable Pre-training of Large Autoregressive Image Models

Alaaeldin El-Nouby, Michal Klein, Shuangfei Zhai, Miguel Angel Bautista, Alexander Toshev...

TL;DR这篇论文介绍了 AIM，一种根据自回归目标预训练的视觉模型集合。这些模型受到了文本模型的启发，并展现了类似的规模扩展性。重点提到两个关键发现：（1）视觉特征的性能随模型容量和数据量的增加而提高，（2）目标函数的价值与模型在下游任务上的性能相关。通过预先训练一架 70 亿参数、使用 20 亿图像的 AIM，在 ImageNet-1k 上使用冻结的主干获得了 84.0% 的准确率。有趣的是，即使在这样的规模下，我们观察不到性能饱和的迹象，这表明 AIM 可能代表了训练大规模视觉模型的一个新的前沿。AIM 的预训练类似于 LLM 的预训练，并不需要任何图像特定的策略来稳定规模化训练。

Abstract

This paper introduces aim, a collection of vision models pre-trained with an autoregressive objective. These models are inspired by their textual counterparts, i.e., Large Language Models (LLMs), and exhibit simi

aim vision models pre-training scaling properties downstream tasks

发现论文，激发创造

面向视觉表征学习的语义感知自回归图像建模

自主训练自回归模型在计算机视觉中的发展滞后于自然语言处理，本研究提出了一种基于语义感知的自回归图像建模方法，通过对补丁的特征相似性进行排序，将自回归建模从语义补丁扩展到非语义补丁，并探索了使用补丁特征作为预测目标的方法，实验表明该方法在图像分类、目标检测和分割等多个任务中实现了卓越的性能表现。

Dec, 2023

为高效视频动作识别调整图像模型的目标

本研究提出了一种适用于影像模型的新方法，通过添加轻量 Adapter 和冻结预训练的影像模型，实现提高影像模型的时空推理能力，该方法在四个视频行为识别基准上取得了与先前方法相当甚至更好的性能。

Feb, 2023

探索随机自回归图像建模以获取视觉表征

本文针对自回归模型在计算机视觉领域无法与其他自监督学习方法相比的问题，通过引入随机排列策略和并行编码 - 解码训练过程，提出了一种名为 SAIM 的新型随机自回归图像建模方法，取得了极大的性能提升，特别是在基于 ImageNet-1K 数据的视觉变换任务方面达到最佳精度 83.9%。

Dec, 2022

InternVL：扩展视觉基础模型并对通用视觉语言任务进行对齐

通过设计大规模的视觉语言基础模型 (InternVL)，其参数规模扩展到 60 亿，并逐步与大型语言模型对齐，该研究旨在推动视觉与视觉语言基础模型的发展与应用，以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。

Dec, 2023

多模态自回归建模基于视觉单词

成功进行多模态自回归建模，并首次提出了视觉词概念，将视觉特征映射到 LLMs 词汇的概率分布，为视觉建模提供了监督信息。通过对 5 个 VQA 任务和 4 个基准工具包的实验结果和消融研究的验证，证明了我们提出方法的强大性能。

Mar, 2024

联合训练大型自回归多模态模型

近年来，语言和文本到图像模型的大规模预训练的进步已经革新了机器学习领域。然而，将这两种模态集成到一个能够生成无缝多模态输出的强大模型仍然是一个重大挑战。为了解决这个问题，我们提出了联合自回归混合（JAM）框架，这是一种模块化的方法，系统地融合了现有的文本和图像生成模型。我们还引入了一种专门的、高效的数据调优策略，为混合模态生成任务量身定制。我们最终调优的模型在生成高质量多模态输出方面表现出了无与伦比的性能，并且代表了首个明确设计用于此目的的模型。

Sep, 2023

探究遮罩图像建模中的数据缩放

本文旨在通过在使用 Coyo-700M 数据集进行实验，探究遮蔽图像建模 (MIM) 方法在不同大小和模型的情况下，进行下游任务的表现变化，并发现了 MIM 在训练数据规模较小时提高模型容量的效果、强重构目标能增加模型在下游任务中的容量，以及大多数情况下，MIM 预训练是数据不可知的。这些发现为未来的 MIM 研究提供了有价值的见解。

May, 2023

MAE 预先预训练对亿级预训练的有效性

该论文重新审视了在视觉识别任务中使用的标准预训练 - 微调范式，通过使用自监督 MAE 技术实现额外的预先训练阶段来初始化模型。该方法不仅可以扩展模型大小，还可以扩展训练数据集的规模，从而提高了基础模型的训练效率以及各种视觉识别任务的性能并取得了新的最优结果。

Mar, 2023

通过顺序自回归打造数据高效的大型视觉模型

该论文研究了一种高效的基于自回归的视觉模型，通过有限的数据集在测试阶段展示了其在高层次和低层次语义理解等各种视觉任务上的能力，减少了参数占用以及训练数据要求，为通用视觉模型领域的可持续性和可访问性提供了重要进展。

Feb, 2024

视觉自回归建模：通过下一尺度预测实现可扩展图像生成

Visual AutoRegressive modeling (VAR) improves autoregressive image generation surpassing diffusion transformers, exhibiting power-law scaling laws and zero-shot task generalization.

Apr, 2024