AudioFormer: 从离散声学编码中学习音频特征表示的音频 Transformer

Aug, 2023

AudioFormer: 从离散声学编码中学习音频特征表示的音频 Transformer

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

Zhaohui Li, Haitao Wang, Xinghua Jiang

TL;DR通过收集离散声学代码并进行微调，AudioFormer 对音频分类任务提出了一种学习音频特征表示的方法。采用已有的神经音频编解码模型，生成离散声学代码并利用它们来训练掩码语言模型，从而获取音频特征表示。此外，通过采用多正样本对比学习方法，实现了多个离散声学代码在同一音频输入中的联合表示学习。实验结果表明，与传统单模音频分类模型相比，AudioFormer 在多个数据集上取得了显著提升，在某些数据集上甚至超越了音频 - 视觉多模分类模型的性能。

Abstract

We propose a method named audioformer, which learns audio feature representations through the acquisition of discrete acoustic codes and subsequently fine-tunes them for →

audioformer audio classification discrete acoustic codes masked language model mpc learning

发现论文，激发创造

FaceFormer：基于 Transformer 的语音驱动 3D 面部动画

提出了一种基于 Transformer 的自回归模型，称为 FaceFormer，用于声控 3D 面部动画。该模型能够对长时间音频上下文进行编码，并自回归预测一系列动画 3D 面网格。通过自监督预训练语音表示，使得该模型能够成功解决数据稀缺问题。同时，设计了两种有偏的注意机制，并进行为这个特定任务进行优化。大量实验证明，该方法优于现有的最先进技术。

Dec, 2021

DeCoR: 通过预测早期音频编码来避免知识遗忘

本文介绍一种名为 DeCoR 的新的持续音频表征学习方法，通过预测延迟码书的量化索引，间接从早期模型蒸馏出知识到最新模型，从而提高了声学场景分类的准确性，并与持续自监督表示学习相融合。

May, 2023

MusiCoder: 基于 Transformers 的通用音乐 - 声学编码器

本文提出了一种名为 MusiCoder 的自监督音乐声学表示学习方法，通过掩蔽重建预训练，自适应 BERT 式的自注意力双向转换器架构，该方法在两个下游音乐注释任务中均优于现有模型，表明了自监督学习方法理解音乐的巨大潜力。

Aug, 2020

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021

EnCodecMAE: 利用神经编解码器进行通用音频表示学习

本研究探讨了使用神经音频编解码器 EnCodec 生成发音、音乐和环境声音的离散目标，以学习基于遮蔽自动编码器的通用音频模型 EncodecMAE，并在广泛的音频任务中取得了与领先的音频表示模型相媲美或更好的性能。

Sep, 2023

使用声学图像的音视频模型蒸馏

本研究旨在研究如何从视觉数据和新型的音频数据模式 —— 声学图像中学习丰富和强大的音频分类特征表示，通过利用新的多模态标记行动识别数据集，并针对性地训练音频深度学习模型，从视觉和声学图像方面实现知识蒸馏，以获得比单麦克风声音数据训练模型更强大和更具有一般化能力的特征表示。

Apr, 2019

基于 MFCC 的基于 Transformer 的音频分类序列标注

该论文提出了一种基于 Transformer 编码器的音频分类模型，使用 MFCCs 作为输入特征，经过 ESC-50, Speech Commands v0.02, 和 UrbanSound8k 数据集的测试，获得了最高达 95.2% 的精度和轻量级的模型参数，是一种高效的音频分类方法。

Apr, 2023

音频表示的多格式对比学习

本研究通过多种不同格式的单一模态对比学习框架，最大程度地提高音频表示的有效性，取得了一定的效果。在 AudioSet 和 ESC-50 分类任务上，我们的声音单一方法取得了新的最佳结果，平均精度为 0.376，准确率为 90.5％。

Mar, 2021

基于音频编解码的语音分离

通过在 NAC 的嵌入空间中进行音频编码器（Codec）的语音分离（SS）任务，我们提出了一种新的模型 Codecformer，在推断过程中实现了 52 倍的 MAC 降低，并且产生了与 Sepformer 云部署相当的分离性能，为在实际场景中实现高效的 SS 打开了新的方向。

Jun, 2024

AVSegFormer: 基于 Transformer 的音视频分割

本文提出了一种基于 transformer 架构的音视频分割（AVS）框架 AVSegFormer，该框架引入了音频查询和可学习查询，利用注意力机制实现选择性关注有关的视觉特征，并使用中间 mask 损失增强了解码器的监督，有效解决了音视频分割任务中的重要挑战，实验结果表明，AVSegFormer 在 AVS 基准测试中取得了最佳性能。

Jul, 2023