借助更先进的集群可能在亚人类尺度上实现图像识别的程度

Aug, 2023

借助更先进的集群可能在亚人类尺度上实现图像识别的程度

A degree of image identification at sub-human scales could be possible with more advanced clusters

Prateek Y J

TL;DR本研究旨在确定目前可用的自监督学习技术是否能够在人们从中获取的相同程度和数量的感官输入下，实现对视觉图像的人类水平理解。研究发现，在同时增加数据量和图像质量的情况下进行规模化实验，可以在亚人类尺寸下实现人类水平的物品检测性能。使用最多 200000 张高达 256 像素每英寸的图像对视觉转换器进行了规模化实验。

Abstract

The purpose of the research is to determine if currently available self-supervised learning techniques can accomplish human level comprehension of visual images using the same degree and amount of →

self-supervised learning visual images sensory input data volume scaling image quality

发现论文，激发创造

通过扩大规模，也许您可以实现与人类相同的视觉体验，达到人类水平的目标识别能力

如果同时扩大数据规模、模型大小和图像分辨率，通过自监督学习可以实现人类级的视觉目标识别能力，而且使用基于掩码自编码器的高效自监督学习算法，可以在低成本的学术预算下进行扩展实验。

Aug, 2023

自监督视觉表示学习的扩展和基准测试

本文探讨了自监督学习的可扩展性，并在大规模数据集上评估了两种流行的自监督学习方法，并发现当前自监督学习方法没有充分利用大规模数据，且无法学习到有效的高层语义表示。同时，介绍了 9 个不同数据集和任务的自监督学习基准测试，必要时开展可比较的评估设置，以实现具有意义的进展。

May, 2019

通过将图像嵌入文本主题空间进行自监督的视觉特征学习

本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法，通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模，训练卷积神经网络来预测图像最可能出现为插图的语义上下文，有效地学习了区分性视觉特征，其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。

May, 2017

可扩展的人机图像编码

研究了一种可扩展的学习图像编解码器，其潜在空间设计支持从简单到复杂的任务，旨在节省机器视觉任务的比特率，同时在输入重建方面与先进的图像编解码器相当。

Jul, 2021

探究遮罩图像建模中的数据缩放

本文旨在通过在使用 Coyo-700M 数据集进行实验，探究遮蔽图像建模 (MIM) 方法在不同大小和模型的情况下，进行下游任务的表现变化，并发现了 MIM 在训练数据规模较小时提高模型容量的效果、强重构目标能增加模型在下游任务中的容量，以及大多数情况下，MIM 预训练是数据不可知的。这些发现为未来的 MIM 研究提供了有价值的见解。

May, 2023

基于深度学习的图像重建的比例律

本文研究通过增加训练集大小来提高深度卷积神经网络图像处理的性能，发现在训练样本数较少时，模型表现随训练样本数增加而迅速提升，但在一定程度上达到饱和，并提出理论解释。

Sep, 2022

利用大规模无监督学习构建高级特征

使用卷积神经网络进行非监督学习，提取图像中的高级特征，并取得了针对 20,000 个物体类别的显著优化结果。

Dec, 2011

深度表示学习的无监督图像分类

本研究提出了一种无监督图像分类框架，旨在通过不使用嵌入聚类来简化和优化深度聚类算法，并在 ImageNet 数据集上进行了实验。同时验证了其在多标签图像分类，目标检测，语义分割等任务的泛化性，以及其在迁移学习中的有效性。

Jun, 2020

多尺度光学神经科学的深浅数据科学

光学成像技术在过去二十年取得了巨大发展，通过新的光学器件、指示剂和实验模式，我们现在能够进行从突触到大脑皮层的体内成像。为了应对不同尺度下产生的大量数据，我们不断开发计算方法以提取与生物相关的信息。本文旨在讨论算法设计中的限制和权衡，以确定数据质量和可变性如何阻碍算法的使用和传播。

Feb, 2024

跨领域拓展和分析自监督学习

通过对自监督学习在卫星图像等各个领域的实验发现，旋转任务是语义最具意义的，而 Jigsaw 和 Instance Discrimination 的性能很大程度上归因于它们诱导分布的特性，但在细粒度分类等任务上所有任务的表现均不佳，这些成功和失败的原因通过对预训练泛化、随机标签和隐含维度的研究进行了定量和定性的诊断。

Apr, 2020