用非常有限的合成图像预训练视觉 Transformer
使用循环谐波的新方法,探讨了基于轮廓的合成数据集的设计空间,发现增加数据集中的图像数量和种类是关键因素,在新数据集 VisualAtom-21k 上进行预训练后,fine-tuning 在 ImageNet-1k 上的 top-1 准确率达到了 83.7%,与 JFT-300M 预训练相比,图像数量缩小到 1/14,解决了真实图像所带来的问题。
Mar, 2023
本研究证明,在不使用真实图像、人工和自我监督的情况下,公式驱动的监督学习(FDSL)的性能可以与 ImageNet-21k 匹敌甚至超过其性能。FDSL 的图像避免了真实图像所遭受的隐私、版权问题、标签成本与误差以及偏差,因此具有潜在的重要性。此外,本文还探讨了合成图像的性能,并测试了两个假设,即物体轮廓是 FDSL 数据集中最重要的因素,增加标签创建的参数数量会影响 FDSL 预训练的性能。
Jun, 2022
该论文提出了一种新颖的概念 —— 公式驱动的监督学习,利用分形形象自动生成命名类别标签,从而实现图像预训练,尽管所提出的 FractalDB 预训练模型在所有设置中并未完全胜过人类注释的数据集,但在部分情形下其预测准确率优于 ImageNet/Places 预训练模型,并且所提出的 FractalDB 可以捕捉卷积层和注意力可视化中的独特特征。
Jan, 2021
本篇文章提出了一种新的、基于分形图像的优化预训练数据集的方法,该数据集可以在零成本的情况下实现完美的分类准确性,无需存储 / 传输巨大的图像存档,没有隐私 / 族群偏见 / 不当内容的担忧,并且图像有无限的供应和多样性。实验结果表明,利用这种新的预训练任务和基于分形的预训练方法 Fine-tune 网络可以达到 92.7-98.1% 的 ImageNet 预训练网络的准确性。
Oct, 2021
通过使用动态生成的分形图像对比使用 ImageNet 预先训练的模型,我们评估了八种最先进的模型在异常检测任务中的性能,虽然 ImageNet 的预训练仍然是最好的选择,但分形图像的结果非常有希望,这表明了在处理机器学习中日益增长的数据需求以及隐私和安全问题时,使用合成的抽象数据集进行特征提取器训练的新研究方向的可能性。
May, 2024
通过对多种视觉架构进行基准测试,证明了预训练模型在新兴数据集上的初始化价值,使得这些预训练模型能够适应各种下游神经影像任务,即使目标任务的训练数据有限。
Sep, 2023
图像 - 文本训练如 CLIP 已经在近年来直接影响了视觉基础模型的预训练。本文提出了一种名为 ViSFT(Vision SFT)的两阶段方法,通过对一些领域内任务进行视觉联合学习,进而增强视觉基础模型的精细知识。该方法在 8 个 V100 GPU 上不到 2 天的时间内使用 ViSFT 进行更新,展示了一个带有超过 4.4B 参数的视觉转换器在包括视觉和视觉 - 语言场景在内的各种领域外基准测试中的改进。
Jan, 2024
本文提出了自蒸馏(self-distillation)作为进一步预训练阶段的正则化方法来解决 Vision Transformer 模型在目标未标记数据上预训练的过拟合问题,最终在图像分类和文本分类任务中优于相关基线。
Sep, 2022
利用大型视觉基础模型(VFMs)通过在庞大数据集上预训练,以及在有限标记的目标数据下展现出优异性能的情况下,提出了一种简单高效的面向任务的知识迁移方法,用于对小型任务特定模型进行有效训练。实验结果表明,该方法在有限标记数据的情况下,在四个目标任务上的性能优于面向任务无关的 VFM 蒸馏、Web 规模 CLIP 预训练和监督式 ImageNet 预训练,分别提升了 1-10.5%、2-22% 和 2-14%。研究还指出了用于知识迁移的数据集对最终目标任务性能的显著影响,并提出了基于图像检索的方法来筛选有效的迁移集。
Nov, 2023