掩蔽胶囊自编码器
本研究提出一种基于模型对模糊图像的建模方法,即上下文自编码器(CAE),用于自我监督的表示预训练,其中引入了一种对齐约束,以使从可见补丁中预测的表示在编码表示空间中进行排列。相比之前的 MIM 方法,我们的方法利于表示学习和下游任务的进行。通过在语义分割和物体检测和实例分割等下游任务中表现,我们证明了我们的 CAE 的有效性。
Feb, 2022
Motion Capsule Autoencoder 基于二级层次模型,使用胶囊自编码器,处理了运动表示学习中重要的问题(变换不变性),提出了一种简单高效的编码方法,在多个数据集上实现了优于基线的结果。
Oct, 2021
本研究通过使用自监督学习以及具有表面网格的视觉转换器架构,构建了模型以模拟皮层结构,进而实现对皮层表面的学习。通过在较大数据集上进行预训练,可以获得强大的表示能力,用于在数据少的情景下进行微调,而在皮层表型回归任务中,预训练可以带来 26% 的性能提升和 80% 的更快收敛速度。
Aug, 2023
本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器,通过实现以两种核心设计为基础的 MAE 方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并 Transfer Learning 具有出色的性能。
Nov, 2021
本文介绍使用 ConvMAE 框架对 Vision Transformers 进行特征预训练和 Masked Auto-Encoder 技术的引入,提高了其在各种视觉任务中的表现。而使用 masked convolution 和直接监督卷积层的 features 等方法,可以在保证计算效率的同时提高了分类和检测的准确率。
May, 2022
在生物研究中,将显微镜图像分析成特征仍然是一个重大挑战。本研究探讨了弱监督分类器和自监督掩码自编码器(MAEs)在使用越来越大的模型和显微镜数据集进行训练时的伸缩性能。我们的研究结果表明,基于 ViT 的 MAEs 在多项任务上优于弱监督分类器,在从公共数据库中获取的已知生物关系的召回中相对改进了 11.5%。此外,我们还开发了一种新的通道无关的 MAE 架构(CA-MAE),可以在推理时输入具有不同通道数和顺序的图像。我们证明了 CA-MAEs 通过在具有不同实验条件和通道结构的显微镜图像数据集(JUMP-CP)上进行推断和评估的方法有效地泛化。我们的发现促使继续在显微镜数据上进行自监督学习的规模扩展研究,以创建能够催化药物发现等领域进展的细胞生物学强大基础模型。
Apr, 2024
本文提出了一种名为 SdAE 的简单自蒸馏掩码自编码器网络,该网络具有带有编码器 - 解码器结构的学生分支来重构缺失信息,以及产生蒸馏编码代码本的老师分支。通过分析信息瓶颈,提出了一种构建良好视图以产生潜在表示的方法,并使用多重蒙版策略来提供平衡信息的多个蒙版视图,以增强性能。
Jul, 2022
本文是针对掩膜自编码器在自监督学习中扮演的角色所做的综述,着重于介绍其在视觉模式识别领域中的应用,包括历史发展、最新进展以及对各种应用的影响。
Jul, 2022
这篇论文介绍了一种名为 VideoMAC 的新方法,结合了对视频帧进行对称遮罩的视频自编码器和资源友好的 ConvNets,以及一种称为 MVM 的简单而有效的遮罩视频建模方法,通过在下游任务中的表现超过了基于 ViT 的方法。
Feb, 2024
该研究提出了一种针对 SCAE 的逃避攻击和名为 Hybrid Adversarial Training 的防御方法,该方法结合了对抗训练和对抗蒸馏以实现更好的稳健性和稳定性。实验结果表明,该防御方法的确能够提高对逃避攻击的识别能力。
Feb, 2022