多窗口关注遮蔽自编码器更好的音频学习者
本文研究了基于图像的 Masked Autoencoder(MAE)的简单扩展,用于从音频频谱图进行自监督表示学习,并提出了 Audio-MAE 模型,该模型利用 Transformer 编码器 - 解码器设计,使用高掩蔽率编码音频频谱图,通过仅馈送非遮蔽记号通过编码器层,解码器则重新组织和解码编码器产生的上下文,以重构输入谱图。在六个音频和语音分类任务中,Audio-MAE 都表现出最先进的性能,超过了使用外部监督预训练的其他最新模型.
Jul, 2022
利用注重对象的重建过程来指导复原能力的建议,通过在损失函数中利用场景的注意力图获取的注意力图,提供更多的重建相关对象的强调,从而激励模型学习更加注重对象的表示,同时通过改进的线性探测和 k-NN 分类在几个基准测试中展示出我们预训练模型具有更好的潜在表示能力,同时使 ViTs 对不同背景更加稳健。
Feb, 2024
从多视角捕获的视频可以帮助感知世界的 3D 结构,并对计算机视觉任务,如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法,通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器(MAE)框架,在同视角解码器的基础上,引入了一个独立的交叉视角解码器,利用交叉注意机制从源视角视频重构目标视角视频,以获得对视角变化具有鲁棒性的表示。针对视频,静态区域可以简单地进行重构,这限制了学习有意义表示的能力。为此,我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果,并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置,证明了我们方法的鲁棒性。我们将提供代码。
Jan, 2024
本文提出了 CAV-MAE 模型,它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态,并结合自监督学习框架中的对比学习和蒙版数据建模两种方法,学习联合和协调的音频 - 视觉表示,并在 VGGSound 数据集中取得了新的 SOTA 准确性,达到了 65.9%。
Oct, 2022
本文提出了一种新的通过自编码集成原始音频数据的方法:Masked Spectrogram Modeling(MSM),并使用 Masked Autoencoders(MAE)进行自监督学习,这种方法在 HEAR 2021 NeurIPS Challenge 中取得了比传统方法更好的结果。
Apr, 2022
本文提出了一种针对自我监督语音及音频分类中 Self-Supervised Audio Spectrogram Transformer (SSAST) 模型的简单、且功能强大的改进方法。具体而言,我们将来自原模型中使用的高掩模比率(75%)的问题进行改进,并将 Masked Autoencoders are Scalable Vision Learners(MAE)的编码器 - 解码器结构集成到 SSAST 中。我们发现 MAE 预训练可以相较于当前的音频预训练策略,在常规模型和输入尺寸下提供 3 倍的加速和 2 倍的内存使用率降低。在下游任务的微调中,我们发现我们的方法比 SSAST 在各种下游任务中表现更优。我们进一步对预训练的不同策略进行了全面的评估,并探讨了视觉和音频领域之间 MAE 风格预训练的不同之处。
Mar, 2022
提出了一种称为 MultiMAE 的预训练策略,通过掩蔽解决了网络输入多样性和预测任务多样性的问题,从而实现可靠的跨模态与任务预测编码和转移学习。
Apr, 2022
我们提出了一种自我监督学习框架,称为 “长程上下文化蒙版自编码器(LC-MAE)”,该方法能够有效地利用全局上下文理解视觉表示,同时减少输入的空间冗余。通过从多个视角学习完整像素和稀疏像素的本地表示,LC-MAE 能够学习到更具有区分性的表示,从而在 ImageNet-1K 上使用 ViT-B 实现了 84.2% 的 top-1 准确率,比基准模型提高了 0.6%。LC-MAE 在下游语义分割和细粒度视觉分类任务中取得了显著的性能提升,并在多个鲁棒性评估指标上均取得了优异的结果。
Oct, 2023
我们重新审视了遮蔽自编码器(MAE)解码机制中的区块间依赖关系,并将此解码机制分解为自注意力和交叉注意力。我们的研究表明,区块之间的自注意力对于学习良好的表示并非必要。基于此,我们提出了一种新颖的预训练框架:交叉注意力遮蔽自编码器(CrossMAE)。CrossMAE 的解码器只利用遮蔽和可见标记之间的交叉注意力,而不会降低下游性能。这种设计还可以只解码一小部分遮蔽标记,提高效率。此外,每个解码器块现在可以利用不同的编码器特征,从而改善表示学习。与 MAE 相比,CrossMAE 在解码计算上只需 2.5 到 3.7 倍的计算量,并在相同计算量下超越了 ImageNet 分类和 COCO 实例分割的 MAE 性能。
Jan, 2024