通过扩大规模，也许您可以实现与人类相同的视觉体验，达到人类水平的目标识别能力

Aug, 2023

通过扩大规模，也许您可以实现与人类相同的视觉体验，达到人类水平的目标识别能力

Scaling may be all you need for achieving human-level object recognition capacity with human-like visual experience

A. Emin Orhan

TL;DR如果同时扩大数据规模、模型大小和图像分辨率，通过自监督学习可以实现人类级的视觉目标识别能力，而且使用基于掩码自编码器的高效自监督学习算法，可以在低成本的学术预算下进行扩展实验。

Abstract

This paper asks whether current self-supervised learning methods, if sufficiently scaled up, would be able to reach human-level visual object recognition capabilities with the same type and amount of visual experience humans learn from. Previous work on this question only considered th

self-supervised learning visual object recognition scaling experiment model size image resolution

发现论文，激发创造

借助更先进的集群可能在亚人类尺度上实现图像识别的程度

本研究旨在确定目前可用的自监督学习技术是否能够在人们从中获取的相同程度和数量的感官输入下，实现对视觉图像的人类水平理解。研究发现，在同时增加数据量和图像质量的情况下进行规模化实验，可以在亚人类尺寸下实现人类水平的物品检测性能。使用最多 200000 张高达 256 像素每英寸的图像对视觉转换器进行了规模化实验。

Aug, 2023

探究遮罩图像建模中的数据缩放

本文旨在通过在使用 Coyo-700M 数据集进行实验，探究遮蔽图像建模 (MIM) 方法在不同大小和模型的情况下，进行下游任务的表现变化，并发现了 MIM 在训练数据规模较小时提高模型容量的效果、强重构目标能增加模型在下游任务中的容量，以及大多数情况下，MIM 预训练是数据不可知的。这些发现为未来的 MIM 研究提供了有价值的见解。

May, 2023

遮蔽自编码器是可扩展的视觉学习器

本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器，通过实现以两种核心设计为基础的 MAE 方法：一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器，并使用更高比例的保持训练图片完整性的遮罩令牌，同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型，并 Transfer Learning 具有出色的性能。

Nov, 2021

自监督视觉表示学习的扩展和基准测试

本文探讨了自监督学习的可扩展性，并在大规模数据集上评估了两种流行的自监督学习方法，并发现当前自监督学习方法没有充分利用大规模数据，且无法学习到有效的高层语义表示。同时，介绍了 9 个不同数据集和任务的自监督学习基准测试，必要时开展可比较的评估设置，以实现具有意义的进展。

May, 2019

掩蔽自编码器是可扩展的细胞形态学学习器

通过高内容显微镜筛选从细胞表型中推断生物关系在生物研究中提供了重要的机遇和挑战。该研究探讨了在更大数据集上训练更大模型时，弱监督和自监督深度学习方法的可扩展性。结果显示，基于 CNN 和 ViT 的掩蔽自编码器在表型推断方面明显优于弱监督模型。在我们的尺度上限，通过来自 9500 万显微镜图像的 35 亿个独特裁剪样本训练的 ViT-L/8 相对于从公共数据库中整理的已知生物关系的最佳弱监督模型的相对改善率达到了 28%。

Sep, 2023

显微镜遮蔽自编码器是可扩展的细胞生物学学习模型

在生物研究中，将显微镜图像分析成特征仍然是一个重大挑战。本研究探讨了弱监督分类器和自监督掩码自编码器（MAEs）在使用越来越大的模型和显微镜数据集进行训练时的伸缩性能。我们的研究结果表明，基于 ViT 的 MAEs 在多项任务上优于弱监督分类器，在从公共数据库中获取的已知生物关系的召回中相对改进了 11.5%。此外，我们还开发了一种新的通道无关的 MAE 架构（CA-MAE），可以在推理时输入具有不同通道数和顺序的图像。我们证明了 CA-MAEs 通过在具有不同实验条件和通道结构的显微镜图像数据集（JUMP-CP）上进行推断和评估的方法有效地泛化。我们的发现促使继续在显微镜数据上进行自监督学习的规模扩展研究，以创建能够催化药物发现等领域进展的细胞生物学强大基础模型。

Apr, 2024

可扩展的人机图像编码

研究了一种可扩展的学习图像编解码器，其潜在空间设计支持从简单到复杂的任务，旨在节省机器视觉任务的比特率，同时在输入重建方面与先进的图像编解码器相当。

Jul, 2021

Swin Transformer V2：扩大容量和分辨率

本文旨在探索大规模计算机视觉模型，并提出了三项技术来解决训练过程中的不稳定性、预训练和微调之间的分辨率差异以及对标记数据的需求量问题，成功训练了一个规模为 30 亿参数的 Swin Transformer V2 模型，在多项计算机视觉任务上取得了最佳性能表现，且训练效率远高于谷歌的类似模型。

Nov, 2021

可扩展的视觉 Transformer

本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小，以及其误差率、数据和计算之间的关系进行表征，提高了模型的精度和训练效果，并最终成功训练出一个包含 20 亿参数的 ViT 模型，在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时，ViT 模型能够在 few-shot transfer 任务中有良好表现，例如在每个类别只有 10 个示例的情况下，能够达到 84.86% 的 top-1 精度。

Jun, 2021

通过感知理解提高视觉表征学习

本文介绍了一种基于 MAE 的扩展方法，通过引入感知相似度项和采用来自生成对抗网络领域的多级训练和自适应鉴别器增强等技巧，可以更好地重构像素并学习到更高级别的场景特征，进而在不使用其他预训练模型或数据的情况下，提高了图片分类等下游任务的性能，并在 ImageNet-1K 数据集上达到了 78.1% 的准确率。

Dec, 2022