EnCodecMAE: 利用神经编解码器进行通用音频表示学习
本文研究了基于图像的 Masked Autoencoder(MAE)的简单扩展,用于从音频频谱图进行自监督表示学习,并提出了 Audio-MAE 模型,该模型利用 Transformer 编码器 - 解码器设计,使用高掩蔽率编码音频频谱图,通过仅馈送非遮蔽记号通过编码器层,解码器则重新组织和解码编码器产生的上下文,以重构输入谱图。在六个音频和语音分类任务中,Audio-MAE 都表现出最先进的性能,超过了使用外部监督预训练的其他最新模型.
Jul, 2022
本研究提出了一种基于矢量量化和自监督学习的 MAE 模型,对语音情感识别领域中标注数据不足的问题提出了一个潜在的解决方案,实验证明该模型在基于 VoxCeleb2 数据库进行预训练并在标准情感音频视觉语音数据集上进行微调后,表现优于现有的音频视觉 SER 方法。
May, 2023
本文提出了一种新的通过自编码集成原始音频数据的方法:Masked Spectrogram Modeling(MSM),并使用 Masked Autoencoders(MAE)进行自监督学习,这种方法在 HEAR 2021 NeurIPS Challenge 中取得了比传统方法更好的结果。
Apr, 2022
我们提出了一种自动音频字幕的新框架 EnCLAP,使用了两个声学表示模型 EnCodec 和 CLAP 以及一个预训练语言模型 BART。我们还引入了一种称为 masked codec modeling 的新训练目标,提高了预训练语言模型的声学感知能力。在 AudioCaps 和 Clotho 上的实验结果表明,我们的模型超过了基准模型的性能。我们将在此网址上提供源代码。在线演示可在此网址上获得。
Jan, 2024
本文提出了 CAV-MAE 模型,它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态,并结合自监督学习框架中的对比学习和蒙版数据建模两种方法,学习联合和协调的音频 - 视觉表示,并在 VGGSound 数据集中取得了新的 SOTA 准确性,达到了 65.9%。
Oct, 2022
通过结合视听信息,我们提出了 AV-MaskEnhancer 方法来学习高质量的视频表示,解决了从低分辨率和模糊的原始视频中提取特征的挑战,并在 UCF101 数据集上的视频分类任务中取得了 98.8% 的 top-1 准确率和 99.9% 的 top-5 准确率,超越了现有工作并达到了最先进水平。
Sep, 2023
我们提出了一种基于原型学习的可解释音乐音频分类模型 PECMAE。我们的模型基于之前的方法 APNet,它共同学习了自编码器和原型网络。与此不同,我们提出将两个训练过程解耦。这使我们能够利用在更大数据上预训练的自监督自编码器 EnCodecMAE 提供更好的泛化表示。我们在用于音乐乐器分类的数据集(Medley-Solos-DB)和流派识别(GTZAN 和更大的内部数据集)上评估我们的方法,后者是以前未用原型网络解决的更具挑战性的任务。我们发现,基于原型的模型保持了大部分基于自编码器嵌入的性能,而原型的谐波音受益于理解分类器的行为。
Feb, 2024
本篇研究提出了一种使用多窗口的遮盖自编码器和多头注意力机制进行多领域音频数据建模的方法,并对比了标准遮盖自编码器的性能效果和特征获取能力。实验结果表明,多窗口的遮盖自编码器在处理多领域音频数据时具有更好的性能和特征提取能力,并且获得了更加独立的特征分层。
Jun, 2023
本研究旨在通过自编码神经网络从语音波形中提取有意义的潜在表示,并比较三个变体:简单维度约束、高斯变分自编码器和离散量化矢量自编码器,成果表明此方法在 ZeroSpeech 2017 任务中获得了可比拟的表现。
Jan, 2019
提出了一种有效的 ID 调节策略 uaMix-MAE,通过对预训练的 MAEs 进行对比调节,以实现对特定任务的语义有效适应,并且通过操纵输入和虚拟标签空间中的音频样本来优化模型,实验结果表明在低 / 少样本设置中,所提出的模型在有限的无标签数据下相比不同的基准模型(如 AudioSet-20K)取得了 4-6% 的准确率提升。
Mar, 2024