无自然图像的预训练

Jan, 2021

Pre-training without Natural Images

Hirokatsu Kataoka, Kazushige Okayasu, Asato Matsumoto, Eisuke Yamagata, Ryosuke Yamada...

TL;DR该论文提出了一种新颖的概念 —— 公式驱动的监督学习，利用分形形象自动生成命名类别标签，从而实现图像预训练，尽管所提出的 FractalDB 预训练模型在所有设置中并未完全胜过人类注释的数据集，但在部分情形下其预测准确率优于 ImageNet/Places 预训练模型，并且所提出的 FractalDB 可以捕捉卷积层和注意力可视化中的独特特征。

Abstract

Is it possible to use convolutional neural networks pre-trained without any natural images to assist natural image understanding? The paper proposes a novel concept, →

convolutional neural networks formula-driven supervised learning fractaldb image understanding pre-training

发现论文，激发创造

提高分形预训练

本篇文章提出了一种新的、基于分形图像的优化预训练数据集的方法，该数据集可以在零成本的情况下实现完美的分类准确性，无需存储 / 传输巨大的图像存档，没有隐私 / 族群偏见 / 不当内容的担忧，并且图像有无限的供应和多样性。实验结果表明，利用这种新的预训练任务和基于分形的预训练方法 Fine-tune 网络可以达到 92.7-98.1% 的 ImageNet 预训练网络的准确性。

Oct, 2021

用非常有限的合成图像预训练视觉 Transformer

基于数学公式生成的合成图像的预训练方法（FDSL）通过数据增强替代了显式生成实例，证实其性能优于原始数据集，从而打开了使用更小数据集进行预训练视觉转换的新可能性。

Jul, 2023

用于异常检测和定位的分形预训练数据集

通过使用动态生成的分形图像对比使用 ImageNet 预先训练的模型，我们评估了八种最先进的模型在异常检测任务中的性能，虽然 ImageNet 的预训练仍然是最好的选择，但分形图像的结果非常有希望，这表明了在处理机器学习中日益增长的数据需求以及隐私和安全问题时，使用合成的抽象数据集进行特征提取器训练的新研究方向的可能性。

May, 2024

使用自动生成的轮廓替换标注的真实图像数据集

本研究证明，在不使用真实图像、人工和自我监督的情况下，公式驱动的监督学习（FDSL）的性能可以与 ImageNet-21k 匹敌甚至超过其性能。FDSL 的图像避免了真实图像所遭受的隐私、版权问题、标签成本与误差以及偏差，因此具有潜在的重要性。此外，本文还探讨了合成图像的性能，并测试了两个假设，即物体轮廓是 FDSL 数据集中最重要的因素，增加标签创建的参数数量会影响 FDSL 预训练的性能。

Jun, 2022

视觉 Transformer 能否在没有自然图像的情况下进行学习？

本研究提出了一种无需自然图像和人工注释的 ViT 预训练框架，实验证明与 SimCLRv2 和 MoCov2 等复杂的自监督学习方法相比，在不使用任何自然图像的情况下部分优于自然图像预训练的 ViT，并可以大部分解释自然图像数据集，特别在 CIFAR-10 数据集上，表现出 97.6％的性能。

Mar, 2021

无监督预训练非策展数据图像特征

本研究提出了一种新的无监督学习方法，利用自监督和聚类从大规模数据中捕获互补统计信息，通过对 YFCC100M 中 9600 万张图片的验证，本方法已经成为标准基准测试中无监督方法中最先进的方法之一，也展示了使用本方法预训练的 VGG-16 在 ImageNet 验证集上可以获得 74.9 % 的分类精度，比同一网络从头开始训练提高了 0.8%。

May, 2019

Visual Atoms: 使用正弦波预训练视觉 Transformer

使用循环谐波的新方法，探讨了基于轮廓的合成数据集的设计空间，发现增加数据集中的图像数量和种类是关键因素，在新数据集 VisualAtom-21k 上进行预训练后，fine-tuning 在 ImageNet-1k 上的 top-1 准确率达到了 83.7％，与 JFT-300M 预训练相比，图像数量缩小到 1/14，解决了真实图像所带来的问题。

Mar, 2023

DINOv2: 无监督学习强韧可靠的视觉特征

本文提出了一种基于预训练和自监督方法的计算机视觉模型，该模型使用大量的数据自动构建一种多样的图像数据集，能够在各种任务和图像的情况下快速、高效地生成功能强大的视觉特征。

Apr, 2023

在无监督未筛选图像上进行预训练使视觉模型更健壮和公正

通过自监督学习方法，针对各种来源、无需数据预处理的数十亿张随机图片进行训练，生成可以识别物体、风格、地理位置等信息的模型，并对其公平性、偏差等进行了多角度验证，证明其表现优异、不会对数据进行歧视和危害。

Feb, 2022

通过将图像嵌入文本主题空间进行自监督的视觉特征学习

本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法，通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模，训练卷积神经网络来预测图像最可能出现为插图的语义上下文，有效地学习了区分性视觉特征，其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。

May, 2017