通过过度拟合掩码自编码器检测生成抄袭
提出一种基于采样高时空令牌的创新 MAE 架构 SurgMAE,应用于手术视频领域的自监督学习,证明了该方法在低数据量条件下的有效性及其在非手术数据集 UCF-101 上的泛化性能优越性。
May, 2023
本研究提出一种新的基于 Masked Auto-Encoder 的检索导向的预训练模型 RetroMAE,通过三个关键设计,包括污染输入、不对称模型结构和不对称的遮盖比率,取得了令人满意的实验结果,大幅提高了在 BEIR 和 MS MARCO 等检索基准测试中的性能表现。
May, 2022
利用注重对象的重建过程来指导复原能力的建议,通过在损失函数中利用场景的注意力图获取的注意力图,提供更多的重建相关对象的强调,从而激励模型学习更加注重对象的表示,同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力,同时使 ViTs 对不同背景更加稳健。
Feb, 2024
本文展示掩码自动编码器 (MAE) 是可扩展的自监督计算机视觉学习器,通过实现以两种核心设计为基础的 MAE 方法:一种不对遮罩令牌进行编码的编码器和一种从潜在表示和遮罩令牌中重建原始图像的轻量级解码器,并使用更高比例的保持训练图片完整性的遮罩令牌,同时能够提高训练精度和加速计算。本方法能够训练大型高容量模型,并 Transfer Learning 具有出色的性能。
Nov, 2021
本文研究了 Masked Autoencoder 的数据扩增问题,提出了基于同源识别的 Mix Autoencoder 方法,通过自监督预训练可以提升下游视觉任务表现,在 ImageNet、ADE20K 和 COCO 数据集上 outperforms 了 MAE 和 iBOT 的方法。
Mar, 2023
我们提出了一种基于课程学习的掩模自编码器(CL-MAE),通过不断增加自监督重建任务的复杂性,逐渐提高模型学习更复杂和可转移的表示能力,并使用 Curriculum-Learned Masked Autoencoder (CL-MAE) 在 ImageNet 数据集上进行训练,通过在五个下游任务上的实证结果验证了我们的猜想,展示了课程学习在自监督掩模自编码器中的成功应用。
Aug, 2023
通过对编码器 - 解码器架构以及局部对比学习的分析,本文探索了 Masked AutoEncoder 的机制,并将其改进为一种局部区域级对比学习形式,为改进自监督学习框架提供了更全面和灵活的解释。
Oct, 2023
提出了一种基于遮蔽自编码器的新型神经架构搜索(NAS)框架,该框架在搜索过程中不需要标记数据。通过用图像重构任务替代监督学习目标,我们的方法能够在不损害性能和泛化能力的情况下,有效地发现网络架构。此外,我们通过引入多尺度解码器来解决在无监督范式中广泛使用的 Differentiable Architecture Search(DARTS)方法遇到的性能崩溃问题。通过在不同的搜索空间和数据集上进行大量实验证明了所提方法的有效性和鲁棒性,并提供了其优于基线方法的经验证据。
Nov, 2023
本文提出了一种新的预训练方法,名为 Duplex Masked Auto-Encoder(DupMAE),以改善用于信息检索任务的上下文嵌入的语义表示质量,其中所有上下文嵌入都可以被利用。通过两个互补的自编码任务,联合训练一个统一的编码器,实现所有上下文化嵌入的紧凑汇总,生成最终的语义表示。
May, 2023
本文提出一种使用掩码自编码器作为扩散模型的条件,进而重复生成预训练视觉表示的方法,具备强大的下游识别任务的初始化能力,高质量图像修复和无需额外努力即可应用于视频分类等许多优点。同时,本文还对设计选择的利弊进行了全面的研究并建立了扩散模型和掩码自编码器之间的联系。
Apr, 2023