EnCodecMAE: 利用神经编解码器进行通用音频表示学习

Sep, 2023

EnCodecMAE: 利用神经编解码器进行通用音频表示学习

EnCodecMAE: Leveraging neural codecs for universal audio representation learning

Leonardo Pepino, Pablo Riera, Luciana Ferrer

TL;DR本研究探讨了使用神经音频编解码器 EnCodec 生成发音、音乐和环境声音的离散目标，以学习基于遮蔽自动编码器的通用音频模型 EncodecMAE，并在广泛的音频任务中取得了与领先的音频表示模型相媲美或更好的性能。

Abstract

The goal of universal audio representation learning is to obtain foundational models that can be used for a variety of downstream tasks involving speech, music or environmental sounds. To approach this problem, methods inspired by self-supervised models from NLP, like BERT, are often u

universal audio representation learning encodec masked autoencoder audio tasks audio representation models

发现论文，激发创造

听觉遮盖自编码器

本文研究了基于图像的 Masked Autoencoder（MAE）的简单扩展，用于从音频频谱图进行自监督表示学习，并提出了 Audio-MAE 模型，该模型利用 Transformer 编码器 - 解码器设计，使用高掩蔽率编码音频频谱图，通过仅馈送非遮蔽记号通过编码器层，解码器则重新组织和解码编码器产生的上下文，以重构输入谱图。在六个音频和语音分类任务中，Audio-MAE 都表现出最先进的性能，超过了使用外部监督预训练的其他最新模型.

Jul, 2022

面向音视频语音情感识别的向量量化掩码自编码器

本研究提出了一种基于矢量量化和自监督学习的 MAE 模型，对语音情感识别领域中标注数据不足的问题提出了一个潜在的解决方案，实验证明该模型在基于 VoxCeleb2 数据库进行预训练并在标准情感音频视觉语音数据集上进行微调后，表现优于现有的音频视觉 SER 方法。

May, 2023

使用遮蔽自编码器建模的遮蔽光谱图用于学习通用音频表示

本文提出了一种新的通过自编码集成原始音频数据的方法：Masked Spectrogram Modeling（MSM），并使用 Masked Autoencoders（MAE）进行自监督学习，这种方法在 HEAR 2021 NeurIPS Challenge 中取得了比传统方法更好的结果。

Apr, 2022

EnCLAP：基于神经音频编解码器和音频文本联合嵌入的自动音频字幕生成

我们提出了一种自动音频字幕的新框架 EnCLAP，使用了两个声学表示模型 EnCodec 和 CLAP 以及一个预训练语言模型 BART。我们还引入了一种称为 masked codec modeling 的新训练目标，提高了预训练语言模型的声学感知能力。在 AudioCaps 和 Clotho 上的实验结果表明，我们的模型超过了基准模型的性能。我们将在此网址上提供源代码。在线演示可在此网址上获得。

Jan, 2024

对比音视频掩码自编码器

本文提出了 CAV-MAE 模型，它将 Masked Auto-Encoder (MAE) 模型从单模态扩展到音频 - 视觉多模态，并结合自监督学习框架中的对比学习和蒙版数据建模两种方法，学习联合和协调的音频 - 视觉表示，并在 VGGSound 数据集中取得了新的 SOTA 准确性，达到了 65.9%。

Oct, 2022

AV-MaskEnhancer：通过音频 - 视觉蒙版自编码器增强视频表达

通过结合视听信息，我们提出了 AV-MaskEnhancer 方法来学习高质量的视频表示，解决了从低分辨率和模糊的原始视频中提取特征的挑战，并在 UCF101 数据集上的视频分类任务中取得了 98.8% 的 top-1 准确率和 99.9% 的 top-5 准确率，超越了现有工作并达到了最先进水平。

Sep, 2023

利用预训练自编码器实现可解释的音乐音频原型学习

我们提出了一种基于原型学习的可解释音乐音频分类模型 PECMAE。我们的模型基于之前的方法 APNet，它共同学习了自编码器和原型网络。与此不同，我们提出将两个训练过程解耦。这使我们能够利用在更大数据上预训练的自监督自编码器 EnCodecMAE 提供更好的泛化表示。我们在用于音乐乐器分类的数据集（Medley-Solos-DB）和流派识别（GTZAN 和更大的内部数据集）上评估我们的方法，后者是以前未用原型网络解决的更具挑战性的任务。我们发现，基于原型的模型保持了大部分基于自编码器嵌入的性能，而原型的谐波音受益于理解分类器的行为。

Feb, 2024

多窗口关注遮蔽自编码器更好的音频学习者

本篇研究提出了一种使用多窗口的遮盖自编码器和多头注意力机制进行多领域音频数据建模的方法，并对比了标准遮盖自编码器的性能效果和特征获取能力。实验结果表明，多窗口的遮盖自编码器在处理多领域音频数据时具有更好的性能和特征提取能力，并且获得了更加独立的特征分层。

Jun, 2023

使用 WaveNet 自编码器进行无监督的语音表示学习

本研究旨在通过自编码神经网络从语音波形中提取有意义的潜在表示，并比较三个变体：简单维度约束、高斯变分自编码器和离散量化矢量自编码器，成果表明此方法在 ZeroSpeech 2017 任务中获得了可比拟的表现。

Jan, 2019

uaMix-MAE：基于无监督音频混合的高效预训练音频 Transformer 调优

提出了一种有效的 ID 调节策略 uaMix-MAE，通过对预训练的 MAEs 进行对比调节，以实现对特定任务的语义有效适应，并且通过操纵输入和虚拟标签空间中的音频样本来优化模型，实验结果表明在低 / 少样本设置中，所提出的模型在有限的无标签数据下相比不同的基准模型（如 AudioSet-20K）取得了 4-6% 的准确率提升。

Mar, 2024