GAFX: 一般音频特征提取器

Jul, 2022

GAFX: A General Audio Feature eXtractor

Zhaoyang Bu, Hanhaodi Zhang, Xiaohu Zhu

TL;DR本研究比较了基于深度学习的特征提取方法和基于频谱图的现有方法，提出了一种通用音频特征提取器 (GAFX)，并通过 GTZAN 数据集上的音乐分类任务进行了实验，并基于多个模型对该框架进行了详细的去枝剪枝研究。

Abstract

Most machine learning models for audio tasks are dealing with a handcrafted feature, the spectrogram. However, it is still unknown whether

machine learning audio tasks spectrogram deep learning feature extraction

发现论文，激发创造

ATGNN：音频标签图神经网络

本文介绍了一种名为 ATGNN 的新颖图神经网络架构，通过将谱图视作图结构来处理，实现了 CNN 的能力与图神经网络的全局信息共享能力的结合，并映射了可学习的类别嵌入和相应谱图区域之间的语义关系，通过在两个音频标记任务中的表现，发现 ATGNN 在 FSD50K 数据集上达到 0.585 的 mAP，在 AudioSet-balanced 数据集上达到 0.335 的 mAP，与基于 Transformer 的模型相比具有相当的结果，但参数数量显著较少。

Nov, 2023

针对对抗音频分类的通道特征自适应重新校准

本文研究了 DeepFake Audio 从检测角度进行了研究，并提出了使用注意力特征融合的通道重新校准方法进行合成语音检测。同时，我们也通过使用 SE 块和 LFCC/MFCC 的结合，改进了 Resnet 模型，并提出了更好的输入特征嵌入方式，使得即使较为简单的模型在合成语音分类任务上也能够很好地推广。经过针对 Fake or Real 数据集的训练，我们的模型在 FoR 数据上能够获得 95％的测试准确度，并在使用不同的生成模型生成样本后适应该框架后，达到了 90％的平均准确度。

Oct, 2022

MFAAN：利用多特征真实性网络揭示音频深度伪造

为了解决深度伪造音频内容的问题，该研究引入了多特征音频真实性网络 (MFAAN)，该网络结构利用 Mel 频率倒谱系数 (MFCC)、线性频率倒谱系数 (LFCC) 和色度短时傅立叶变换 (Chroma-STFT) 等多种音频表示方法，通过协同融合这些特征，能够准确鉴别真实和伪造的录音，初步评估显示其在两个基准数据集上表现出卓越的性能，实现了分别达到 98.93% 和 94.47% 的准确率，这不仅突显了 MFAAN 的功效，还凸显了它作为应对深度伪造音频内容的关键工具的潜力。

Nov, 2023

使用引导生成对抗网络在不匹配环境中高效转换声学特征

提出一个新的框架，可以通过运行生成式对抗网络（GAN）生成更好的音频特征，从而提高自动语音识别（ASR）系统的性能，此框架在资源稀缺的环境中非常有用。

Oct, 2022

AST：音频频谱变换器

本文介绍了第一种不依赖卷积操作而采用纯自注意力机制的声音分类模型 ——Audio Spectrogram Transformer（AST），在多个音频分类数据集上取得了新的最优结果。

Apr, 2021

基于深度学习的音频伪造检测网络的泛化

利用小波包和短時傅里叶變換等技術，用于波形数据处理，實現了更輕量級的檢測器，用于對抗利用生成式神經網絡制造的合成語音的詐騙行為，對新型 Avocado 和 BigVGAN 網絡的檢測效果更佳。

May, 2023

为主动发言人检测提供的端到端音视频特征融合

本文提出了一种基于 VGG-M 和 Mel Cepstrum 系数的双流端到端框架，利用两个 BiGRU 层来处理音视频输入的时间动态，并在 AVAAcitveSpeaker 数据集上的实验结果表明，该模型具有更好的鲁棒性和更好的推断时间。

Jul, 2022

基于注意力机制的音频特征融合网络用于抑郁症检测

利用提出的 Attention-Based Acoustic Feature Fusion Network (ABAFnet)，结合多种不同的声学特征，以及通过权重调整模块对特征进行合成，提高抑郁症的检测和亚型分类的性能。

Aug, 2023

音频 Transformer 的 Patchout 高效训练

本文提出一种优化和正则化变压器模型的新方法，使其在音频光谱图上实现了新的最优性能，同时提出了一种在性能和训练速度上均优于 CNN 的变压器模型。

Oct, 2021

端到端音视频语音识别

本文提出了一种基于残差网络和双向门控循环单元 (BGRU) 的端到端视听模型，该模型是第一个在大型公开数据集 (LRW) 上学习直接从图像像素和音频波形提取特征并进行语境内单词识别的视听融合模型，并取得了比端到端仅音频模型和基于 MFCC 的模型更好的分类效果。

Feb, 2018