自监督视觉预训练的掩码频率建模

ICLRJun, 2022

自监督视觉预训练的掩码频率建模

Masked Frequency Modeling for Self-Supervised Visual Pre-Training

Jiahao Xie, Wei Li, Xiaohang Zhan, Ziwei Liu, Yew Soon Ong...

TL;DR本文提出了一种基于频域的自监督预训练的方法，称作 Masked Frequency Modeling（MFM），通过在图像的频率分量上进行遮蔽，并预测其丢失的频率信息来学习图像的表示，实验证明该方法在图像分类、语义分割以及鲁棒性测试方面的性能优于其他最近的基于遮蔽的图像建模方法。此外，本文还全面调查了传统图像恢复任务对于从频域角度进行表示学习的有效性，并揭示了它们与 MFM 方法之间的有趣关系。

Abstract

We present masked frequency modeling (MFM), a unified frequency-domain-based approach for self-supervised pre-training of visual models. I

masked frequency modeling pre-training visual models frequency domain image restoration

发现论文，激发创造

FreMAE: 傅里叶变换融合掩模自编码器用于医疗图像分割

本文提出了一种基于 MIM 的自监督预训练框架，使用傅里叶变换来整合全局和局部信息，进一步加入多阶段监督以指导预训练阶段的表示学习并在医学图像分割任务中获得了比之前最先进的 MIM 方法更好的性能。

Apr, 2023

频率掩蔽用于通用深度伪造检测

通过探索遮蔽图像建模，我们提出了一种新颖的频率域深伪造图像检测方法，具有优异的泛化能力和显著的性能提升。

Jan, 2024

特征屏蔽建模：自下而上视频事件识别的无监督预训练图注意力网络块的特征屏蔽

本文提出了一种新的方法，即遮蔽特征建模（MFM），用于无监督的图注意力网络（GAT）块的预训练。MFM 利用预训练的视觉令牌生成器重构视频中对象的遮蔽特征，利用 MiniKinetics 数据集。然后，将预训练的 GAT 块纳入最先进的自下而上的监督视频事件识别架构 ViGAT，以改进模型的起点和整体准确性。对 YLI-MED 数据集的实验评估表明，MFM 在改进事件识别性能方面是有效的。

Aug, 2023

频率引魔鬼：双倍格局自编码器用于自监督视觉预训练

本研究提出一种基于频率域的 MASK 图像建模方法，称之为 GE2-AE，用于视觉预训练，通过该方法可以学习到更加健壮的非标记视觉表示。

Apr, 2022

Vim-F：从频域学习的受益视觉状态空间模型

使用频率和空间域进行扫描的 Vim-F 模型通过在原有特征图上添加频谱信息，能够建模统一的视觉表示，充分利用 ViM 的高效长序列建模能力，并利用卷积干扰获取更多本地关联性，进一步提高性能。

May, 2024

频率感知的多模态预训练生物信号掩码自编码器

利用多模式生物信号的多模式信息对人的身体和心理状态进行全面建模具有重要意义，但多模式生物信号往往在预训练和推断数据集之间存在明显的分布变化，我们提出了一种频率感知的掩码自编码器（bioFAME），它在频率空间中学习参数化生物信号的表示，并利用固定大小的基于傅里叶的操作符进行全局的分词混合，通过在潜在空间中进行掩码自编码以维持每个输入通道中的频率分量，实现了在预训练过程中对多模态信息的有效利用，并且可以在测试阶段无缝适应不同任务和模态，无论其输入长短和采样率如何，我们在一系列单模态时间序列的迁移实验中评估了我们的方法，在分类准确度上相较于之前的最先进方法平均提升了 5.5％，此外，我们还证明了我们的架构在模态不匹配的情况下具有稳健性，包括未预测的模态丢失或替换，证明了它在实际应用中的实用性。

Sep, 2023

使用掩码扩散模型进行医学图像无监督异常检测

本研究提出了一种名为 mDPPM 的方法，通过引入基于掩码的正则化来重新定义扩散模型的生成任务，以将无标签数据用于自我监督学习，从而从健康脑的样本级标签生成所需的表示，确保结果是解剖一致的。该研究在包含肿瘤和多发性硬化症病变的数据集上评估了这种方法，并展示了我们的无监督方法相对于现有完全 / 弱监督基线的优越性能。

May, 2023

面具特征预测用于自监督视觉预训练

本研究提出了 Masked Feature Prediction (MaskFeat) 方法，它使用随机遮挡的方式自我监督预训练视频模型，主要利用 Histograms of Oriented Gradients（HOG）这种手工特征描述符，探讨了 5 种不同的特征，并发现其中 HOG 在性能和效率方面表现出色，该方法在无需使用额外模型权重或监督的情况下，使用未标记视频预训练，可以实现 86.7％的 Kinetics-400 分类准确率，拥有出色的表现。

Dec, 2021

基于集合的遮蔽粒子建模：面向自监督高能物理基础模型

提出了一种用于学习高能物理科学数据中无序输入的通用、可迁移和可重用表示的自监督方法，即掩蔽粒子建模（MPM）。通过在集合上执行基于掩蔽建模的预训练，该方法提供了一种学习置换不变函数的新方案。此外，该研究还展示了该模型的微调能力以及在新的类别和数据领域上进行小规模微调数据集时的高效迁移能力。

Jan, 2024

对比特征遮罩开放词汇视觉变换器

CFM-ViT 是一种图像 - 文本预训练方法，具有对开放词汇目标检测进行图像和区域级别表示的同时学习能力。通过将掩码自编码器（MAE）目标与对比学习目标相结合，CFM-ViT 在联合图像 - 文本嵌入空间中进行重构，以比传统的 MAE 方法更好地学习区域级语义。此外，引入位置嵌入丢弃（PED）来解决图像 - 文本预训练和检测微调之间的尺度变化，从而提高检测性能并利用冻结的 ViT 骨干作为区域分类器，避免在检测微调过程中遗忘开放词汇知识。在 LVIS 开放词汇检测基准下，CFM-ViT 实现了 33.9 AP$r$ 的最新成果，超过最佳方法 7.6 个点，并在零样本检测转移方面取得更好的效果。最后，CFM-ViT 获得了强大的图像级表示，在 8 个零样本图像 - 文本检索基准中表现出了优于当前技术水平的成绩。

Sep, 2023