- 自监督视觉 Transformer 的损失可视化
利用损失景观的方法调查了 Masked autoencoder 在自监督的 ViT 训练中对更好的泛化能力和梯度修正的作用。
- ICLR基于结构扩散和白盒变换器的遮蔽完成
现代学习框架经常使用大量未标记数据来训练深度神经网络,通过解决简单的先验任务学习表示,并将这些表示用作下游任务的基础。本论文提出了第一个可以应用于大规模无监督表示学习的白盒设计范式,通过利用扩散、压缩和(掩码)补全之间的基本连接,导出了一种 - CVPRT4P:通过遮蔽自动编码器和特定角色记忆的测试时轨迹预测训练
使用数据驱动方法结合在线学习方法(包括使用自动标签任务的回归损失和使用隐式自编码器进行表示学习)来解决轨迹预测中的多个参与者和环境交互问题,并在各种跨数据集分布转移场景中验证了方法的有效性。
- CVPRFocusMAE:应用聚焦掩码自编码器进行胆囊癌超声视频检测
这份研究论文提出了一种基于视频的胆囊癌检测方法,采用 Masked Autoencoder (MAE) 进行表示学习,并引入了一种名为 FocusMAE 的新型设计,通过选择高信息区域的掩蔽标记来改善恶性肿瘤的表示,实现了 96.4% 的准 - 夜雾:基于自学先验的夜间图像去雾
本文介绍了一种适用于夜晚图像增强的新方法,使用自学习先验学习和严格的数据增强,以改善图像中的夜雾,降低图像中的光照效果和噪声,并优化可见性。该方法通过提供强大的网络先验知识,提高了现有夜晚图像去雾方法的性能。
- 使用多级优化的掩码自编码器中的下游任务引导掩码学习
Multi-level Optimized Mask Autoencoder (MLO-MAE) is a novel framework for visual representation learning that leverages - AAAI通过点特征增强掩膜自编码器实现紧凑 3D 表示
为了学习紧凑的 3D 表示,我们提出了一个简单而有效的 Point Feature Enhancement Masked Autoencoders (Point-FEMAE),它主要由一个全局分支和一个局部分支组成,通过全局随机和局部块掩码 - 视觉与语言的同步:用于指代图像分割的双向标记掩码自编码器
提出了一种新的双向掩蔽自编码器(BTMAE)模型,通过重建图像和语言特征中的缺失特征来学习图像与语言的上下文,并实现在复杂语句和场景中的强鲁棒性,提高推理图像分割的性能。
- 利用脑电信号屏蔽自编码器从多导睡眠监测中重建多信号
基于单通道脑电图的遮蔽自编码器,我们的研究旨在通过发展一个只需单个脑电图测量的系统来进行多信号多导睡眠图(PSG)的重构,结果显示本模型成功地重构了多信号数据,为开发更易于获取且长期监测的睡眠系统提供了潜在可能性。
- 图形自我监督学习的生成和对比范式相辅相成
通过融合图对比掩码自编码器(Graph Contrastive Masked Autoencoder,GCMAE)中的局部边缘特征与全局图结构关系,GCMAE 在节点分类、节点聚类、链接预测和图分类等四个流行的图任务中表现出良好的准确性,与 - 从局部对比角度理解掩码自编码器
通过对编码器 - 解码器架构以及局部对比学习的分析,本文探索了 Masked AutoEncoder 的机制,并将其改进为一种局部区域级对比学习形式,为改进自监督学习框架提供了更全面和灵活的解释。
- EnCodecMAE: 利用神经编解码器进行通用音频表示学习
本研究探讨了使用神经音频编解码器 EnCodec 生成发音、音乐和环境声音的离散目标,以学习基于遮蔽自动编码器的通用音频模型 EncodecMAE,并在广泛的音频任务中取得了与领先的音频表示模型相媲美或更好的性能。
- ICCV动作引导的掩模技术用于时空表示学习
我们提出了一种运动引导的掩蔽算法 (MGM),通过利用运动矢量来引导每个掩蔽的位置,从而更高效地利用视频显著性,与先前的最先进方法相比,在两个具有挑战性的大规模视频基准 (Kinetics-400 和 Something-Something - 医疗影像无监督异常检测的遮蔽自编码器
本论文提出了一种使用模板自编码器模型和伪异常模块来训练医学图像中的异常检测的方法,并成功在 BRATS2020 和 LUNA16 等数据集上进行实验。
- 全局 - 局部蒙版自编码器在体积医学图像分割中的应用
提出了一种名为全局局部遮挡自编码器 (GL-MAE) 的简单而有效的自监督预训练策略,它可以重构遮挡的全局和局部体积, 并通过全局引导一致性学习和局部到全局的对应加强和稳定掩蔽体积的表示学习。结果表明,在各种体积医学图像细分任务上,与其他自 - 退缩遮蔽自编码器是超声图像识别的更佳方法
本文提出了一种新的去模糊的掩码自编码方法(Deblurring MAE)来优化超声图像分类任务,并通过实验结果表明该方法取得了极好的效果。
- CVPR利用分层潜变量模型理解遮蔽自动编码器
本研究通过理论模型的建立及实验验证,提供了在 Masked autoencoder 框架下自监督学习的一些理论解释,并说明了其潜在局限性与未来改进方向。
- Translatotron 3: 利用单语料进行语音翻译
本文提出了 Translatotron 3,一种无需监督数据集即可以直接语音为输入,并通过采用掩码自编码器、无监督嵌入式映射和回译相结合的方式进行训练的翻译模型。在西班牙语与英语之间的语音到语音翻译任务中,实验结果显示,Translatot - 跨越领域鸿沟:基于基础模型的自监督三维场景理解
该论文介绍了一种名为 Bridge3D 的创新方法,通过预训练使用基础模型的特征、语义掩码和说明来预训练 3D 模型,从而增强 3D 场景表示学习,包括使用基础模型的语义掩码来指导掩码和重建过程。此外,作者还介绍了一种新方法,使用基础模型生 - 直接从光学显微观测中学习成像机理
利用自监督学习,提出一种物理信息掩蔽自动编码器 (PiMAE),能够通过直接从原始显微图像中学习估计点扩散函数 (PSF) 和发射源的值,这种方法优于传统方法,展示了可行的机制实现在光学显微镜中实现更精确的成像。