Aug, 2023

AudioFormer: 从离散声学编码中学习音频特征表示的音频 Transformer

TL;DR通过收集离散声学代码并进行微调,AudioFormer 对音频分类任务提出了一种学习音频特征表示的方法。采用已有的神经音频编解码模型,生成离散声学代码并利用它们来训练掩码语言模型,从而获取音频特征表示。此外,通过采用多正样本对比学习方法,实现了多个离散声学代码在同一音频输入中的联合表示学习。实验结果表明,与传统单模音频分类模型相比,AudioFormer 在多个数据集上取得了显著提升,在某些数据集上甚至超越了音频 - 视觉多模分类模型的性能。