Visual Atoms: 使用正弦波预训练视觉 Transformer

CVPRMar, 2023

Visual Atoms: 使用正弦波预训练视觉 Transformer

Visual Atoms: Pre-training Vision Transformers with Sinusoidal Waves

Sora Takashima, Ryo Hayamizu, Nakamasa Inoue, Hirokatsu Kataoka, Rio Yokota

TL;DR使用循环谐波的新方法，探讨了基于轮廓的合成数据集的设计空间，发现增加数据集中的图像数量和种类是关键因素，在新数据集 VisualAtom-21k 上进行预训练后，fine-tuning 在 ImageNet-1k 上的 top-1 准确率达到了 83.7％，与 JFT-300M 预训练相比，图像数量缩小到 1/14，解决了真实图像所带来的问题。

Abstract

Formula-driven supervised learning (FDSL) has been shown to be an effective method for pre-training vision transformers, where ExFractalDB

supervised learning vision transformers synthetic datasets pre-training fdsl parameters

发现论文，激发创造

用非常有限的合成图像预训练视觉 Transformer

基于数学公式生成的合成图像的预训练方法（FDSL）通过数据增强替代了显式生成实例，证实其性能优于原始数据集，从而打开了使用更小数据集进行预训练视觉转换的新可能性。

Jul, 2023

使用自动生成的轮廓替换标注的真实图像数据集

本研究证明，在不使用真实图像、人工和自我监督的情况下，公式驱动的监督学习（FDSL）的性能可以与 ImageNet-21k 匹敌甚至超过其性能。FDSL 的图像避免了真实图像所遭受的隐私、版权问题、标签成本与误差以及偏差，因此具有潜在的重要性。此外，本文还探讨了合成图像的性能，并测试了两个假设，即物体轮廓是 FDSL 数据集中最重要的因素，增加标签创建的参数数量会影响 FDSL 预训练的性能。

Jun, 2022

提高分形预训练

本篇文章提出了一种新的、基于分形图像的优化预训练数据集的方法，该数据集可以在零成本的情况下实现完美的分类准确性，无需存储 / 传输巨大的图像存档，没有隐私 / 族群偏见 / 不当内容的担忧，并且图像有无限的供应和多样性。实验结果表明，利用这种新的预训练任务和基于分形的预训练方法 Fine-tune 网络可以达到 92.7-98.1% 的 ImageNet 预训练网络的准确性。

Oct, 2021

无自然图像的预训练

该论文提出了一种新颖的概念 —— 公式驱动的监督学习，利用分形形象自动生成命名类别标签，从而实现图像预训练，尽管所提出的 FractalDB 预训练模型在所有设置中并未完全胜过人类注释的数据集，但在部分情形下其预测准确率优于 ImageNet/Places 预训练模型，并且所提出的 FractalDB 可以捕捉卷积层和注意力可视化中的独特特征。

Jan, 2021

监督微调进一步提升视觉基础模型

图像 - 文本训练如 CLIP 已经在近年来直接影响了视觉基础模型的预训练。本文提出了一种名为 ViSFT（Vision SFT）的两阶段方法，通过对一些领域内任务进行视觉联合学习，进而增强视觉基础模型的精细知识。该方法在 8 个 V100 GPU 上不到 2 天的时间内使用 ViSFT 进行更新，展示了一个带有超过 4.4B 参数的视觉转换器在包括视觉和视觉 - 语言场景在内的各种领域外基准测试中的改进。

Jan, 2024

用于异常检测和定位的分形预训练数据集

通过使用动态生成的分形图像对比使用 ImageNet 预先训练的模型，我们评估了八种最先进的模型在异常检测任务中的性能，虽然 ImageNet 的预训练仍然是最好的选择，但分形图像的结果非常有希望，这表明了在处理机器学习中日益增长的数据需求以及隐私和安全问题时，使用合成的抽象数据集进行特征提取器训练的新研究方向的可能性。

May, 2024

FouriScale: 高分辨率图像合成的频率视角

从高分辨率图像生成、降低重复模式和结构变形等问题出发，本研究通过引入频域分析的无需训练的创新方法 FouriScale 来解决这些挑战。通过替换预训练扩散模型中的原始卷积层，并结合扩张技术和低通操作，以实现结构一致性与比例一致性。通过填充和裁剪策略对其进行进一步增强，我们的方法能够灵活地处理各种纵横比的文本图像生成。通过 FourScale 的指导，我们的方法成功地平衡了生成图像的结构完整性和保真度，实现了任意大小、高分辨率、高质量的生成，并为未来超高分辨率图像合成的探索提供了有价值的见解。

Mar, 2024

基于傅里叶域分析的深度视觉变换器中的防过度平滑技术：从理论到实践

本研究针对 Vision Transformer 深度增加时性能达到饱和的问题提出了两种有效而无需超参数的技术 AttnScale 和 FeatScale，能够有效克服与注意力折叠和补丁均匀性等相关的 ViT 训练伪像。

Mar, 2022

Fourier123: 一种图像到高质量 3D 物体生成的混合傅里叶分数蒸馏方法

用于图像到 3D 生成的一种混合 Fourier 分数蒸馏优化方法，通过优化一组 3D 高斯函数来确保几何一致性，并利用 Fourier 变换的 2D 先验知识提高视觉质量，结合现有的 3D 生成方法，实现了高效生成高质量 3D 物体的目标。

May, 2024

在频域中高效地学习算子

本文介绍一种基于单个信号变换的频域学习模型，通过方差保持初始化方法和频率选择技术，可以简化模型设计，从而在各种动态系统的学习中获得更高的测试性能和更少的计算成本。

Nov, 2022