Oct, 2022

针对对抗音频分类的通道特征自适应重新校准

TL;DR本文研究了 DeepFake Audio 从检测角度进行了研究,并提出了使用注意力特征融合的通道重新校准方法进行合成语音检测。同时,我们也通过使用 SE 块和 LFCC/MFCC 的结合,改进了 Resnet 模型,并提出了更好的输入特征嵌入方式,使得即使较为简单的模型在合成语音分类任务上也能够很好地推广。经过针对 Fake or Real 数据集的训练,我们的模型在 FoR 数据上能够获得 95%的测试准确度,并在使用不同的生成模型生成样本后适应该框架后,达到了 90%的平均准确度。