遮盖图像建模以理解视网膜 OCT

May, 2024

Masked Image Modelling for retinal OCT understanding

Theodoros Pissas, Pablo Márquez-Neila, Sebastian Wolf, Martin Zinkernagel, Raphael Sznitman

TL;DR本研究探讨了使用遮罩图像建模来学习视网膜 OCT 图像的表示的有效性。我们利用遮罩自编码器（MAE）这一简单且可扩展的自监督学习方法，在真实世界的临床环境中使用来自 41K 患者的 700K OCT 图像进行训练，得出了有力且通用的 OCT 图像表示。我们还对 OCT 模型进行了首次广泛评估，通过六个具有挑战性的下游任务，完全微调后的模型表现出了良好的性能，并可以作为轻量级适配器的多功能冻结特征提取器。此外，我们提出了一种扩展的 MAE 预训练方法，将 OCT 与辅助模态 —— 即红外眼底图像相结合，并为两者学习一个联合模型。我们通过多模态下游应用的实验证明了我们的方法提高了性能。我们的实验利用了大多数公开可用的 OCT 数据集，从而为未来的比较工作提供了可能。我们的代码和模型权重公开可用于此 https URL。

Abstract

This work explores the effectiveness of masked image modelling for learning representations of retinal oct images. To this end, we leverage Masked Autoencoders (MAE), a simple and scalable method for

masked image modelling retinal oct images self-supervised learning downstream tasks multimodal downstream application

发现论文，激发创造

OCT-SelfNet: 用于广义和稳健视网膜疾病检测的自监督多模态数据框架

我们的研究提出了一种自我监督的强大机器学习框架 OCT-SelfNet，用于使用光学相干断层扫描 (OCT) 图像检测眼部疾病，通过结合多个机构的数据集，采用两阶段训练方法（自我监督预训练和有监督微调），并基于 SwinV2 主干结构的遮罩自编码器解决了实际临床应用部署的问题。广泛的实验表明，我们的方法在所有测试中均获得超过 77% 的 AUC-ROC 性能，而基线模型 Resnet-50 的性能不到 54%。此外，根据 AUC-PR 指标，我们的方法达到了 42% 以上的性能，相比基线模型的 33%，性能提升了至少 10%，这显示了我们方法的潜力和在临床设置中的实用性。

Jan, 2024

使用多级优化的掩码自编码器中的下游任务引导掩码学习

Multi-level Optimized Mask Autoencoder (MLO-MAE) is a novel framework for visual representation learning that leverages end-to-end feedback from downstream tasks to learn an optimal masking strategy during pretraining, demonstrating remarkable improvements in adaptability and efficiency compared to existing methods.

Feb, 2024

基于注意力引导的蒙版自动编码器用于学习图像表示

利用注重对象的重建过程来指导复原能力的建议，通过在损失函数中利用场景的注意力图获取的注意力图，提供更多的重建相关对象的强调，从而激励模型学习更加注重对象的表示，同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力，同时使 ViTs 对不同背景更加稳健。

Feb, 2024

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

May, 2023

遮蔽自编码器是可扩展的视觉学习器

本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器，通过实现以两种核心设计为基础的 MAE 方法：一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器，并使用更高比例的保持训练图片完整性的遮罩令牌，同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型，并 Transfer Learning 具有出色的性能。

Nov, 2021

探索用于遥感中与传感器无关图像检索的掩模自编码器

遥感图像的自监督学习通过掩码自编码器（MAEs）近期吸引了广泛关注，该方法在内容基准图像检索（CBIR）方面具有重要潜力。然而，现有研究假设考虑的遥感图像是由单一图像传感器获取的，因此仅适用于单模态 CBIR 问题。本文首次探讨了 MAEs 在遥感领域跨传感器 CBIR 中的有效性，并针对多传感器遥感图像库提出了掩码图像建模的不同 CSMAE 模型，通过广泛的实验分析得出了利用掩码图像建模解决单模态和跨模态 CBIR 问题的指导方针。

Jan, 2024

L-MAE: 长纵向掩码自编码器中的时间和严重性感知编码，用于糖尿病视网膜病变进展预测

本文提出基于自监督学习（SSL）的预训练策略，针对医学图像的非典型性，开发了一种基于 Transformer 的纵向遮蔽自编码器 (MAE)，研究了时间感知的位置嵌入和疾病进展感知的遮蔽策略，通过评估在糖尿病视网膜病变（DR）筛查数据集上的预训练权重，证明了这些扩展显著提高深度分类模型的预测能力。

Mar, 2024

Fus-MAE：一种基于交叉注意力的遥感掩码自编码器数据融合方法

Fus-MAE is a self-supervised learning framework based on masked autoencoders that performs data fusion between synthetic aperture radar and multispectral optical data, effectively competing with contrastive learning strategies in SAR-optical data fusion.

Jan, 2024

MultiMAE: 多模态多任务掩蔽自编码器

提出了一种称为 MultiMAE 的预训练策略，通过掩蔽解决了网络输入多样性和预测任务多样性的问题，从而实现可靠的跨模态与任务预测编码和转移学习。

Apr, 2022

CL-MAE：课程学习掩码自编码器

我们提出了一种基于课程学习的掩模自编码器（CL-MAE），通过不断增加自监督重建任务的复杂性，逐渐提高模型学习更复杂和可转移的表示能力，并使用 Curriculum-Learned Masked Autoencoder (CL-MAE) 在 ImageNet 数据集上进行训练，通过在五个下游任务上的实证结果验证了我们的猜想，展示了课程学习在自监督掩模自编码器中的成功应用。

Aug, 2023