SurgMAE：用于长时间手术视频分析的遮蔽自编码器

May, 2023

SurgMAE：用于长时间手术视频分析的遮蔽自编码器

SurgMAE: Masked Autoencoders for Long Surgical Video Analysis

Muhammad Abdullah Jamal, Omid Mohareri

TL;DR提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE，应用于手术视频领域的自监督学习，证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。

Abstract

There has been a growing interest in using deep learning models for processing long surgical videos, in order to automatically detect clinical/operational activities and extract metrics that can enable workflow e

deep learning self-supervised learning masked autoencoders surgical videos transferrable representations

发现论文，激发创造

基于遮挡自编码器的视频无监督预训练技术

本文研究了使用 VideoMAE 进行自主监督视频预训练 (SSVP) 的数据高效性问题，并通过适当的视频屏蔽达到了良好的表现，进而证明数据质量对 SSVP 更加重要。

Mar, 2022

医学监督下的自编码器：为医学图像分类制定更好的遮盖策略和高效的微调计划

本文提出了一种 Medical Supervised Masked Autoencoder (MSMAE) 模型来解决传统 Masked Autoencoder (MAE) 模型在医学图像分类和分割中存在的问题，通过监督训练精确地遮蔽医学图像以及在微调阶段通过注意力机制指导遮蔽医学图像，显著提高了 MSMAE 模型的计算效率和医学诊断质量。

May, 2023

遮蔽自编码器是可扩展的视觉学习器

本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器，通过实现以两种核心设计为基础的 MAE 方法：一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器，并使用更高比例的保持训练图片完整性的遮罩令牌，同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型，并 Transfer Learning 具有出色的性能。

Nov, 2021

遮盖自编码器作为时空学习器

研究了 Masked Autoencoders 在视频方面的应用，支持在没有时空归纳偏差的情况下，使用随机遮挡进行自编码器学习，观察到高比例遮挡可提高速度和表现，可以成为无监督学习的方法。

May, 2022

AdaMAE：自适应掩模自编码器实现高效时空学习

本文提出了一种自适应掩蔽策略 AdaMAE，通过语义上下文采样网络有效地学习高空间时间信息的特征，达到更好的分类效果和更快的预训练速度。

Nov, 2022

SemMAE：用语义引导的遮蔽训练自编码器

本文提出了一种 Semantic-Guided Masking 策略，通过引入语义部分将语义信息集成到 MAE 训练过程中，以学习更好的图像表示。该训练方法在各种视觉任务中都可以表现出色，特别是在 ImageNet-1k 中实现了 84.5% 的细调准确度，比基本 MAE 高 1.4%。

Jun, 2022

MV2MAE：多视角视频掩码自编码器

从多视角捕获的视频可以帮助感知世界的 3D 结构，并对计算机视觉任务，如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法，通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器（MAE）框架，在同视角解码器的基础上，引入了一个独立的交叉视角解码器，利用交叉注意机制从源视角视频重构目标视角视频，以获得对视角变化具有鲁棒性的表示。针对视频，静态区域可以简单地进行重构，这限制了学习有意义表示的能力。为此，我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果，并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置，证明了我们方法的鲁棒性。我们将提供代码。

Jan, 2024

孪生掩模自编码器

本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法，使用视频学习视觉对应关系，通过对大量补丁进行遮罩，鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩溃的手工制作跟踪先兆任务或其他技术的情况下，实现与先前的自我监督方法相比更好的表现。

May, 2023

MTSMAE: 基于掩码的自编码器用于多元时间序列预测

该论文提出了一种新的基于 Masked Autoencoders (MAE) 的自监督预训练方法称为 MTSMAE，利用补丁嵌入的方法处理多元时间序列，实验证明，该方法的性能显著优于目前最好的方法。

Oct, 2022

利用分层潜变量模型理解遮蔽自动编码器

本研究通过理论模型的建立及实验验证，提供了在 Masked autoencoder 框架下自监督学习的一些理论解释，并说明了其潜在局限性与未来改进方向。

Jun, 2023