Sep, 2023

HM-Conformer: 带有分层汇聚和多级分类令牌聚合方法的基于 Conformer 的音频深度伪造检测系统

TL;DR音频深度伪造检测是检测由文本转语音或语音转换系统生成的欺骗攻击的任务。为了解决序列长度和信息聚合的问题,本文提出了 HM-Conformer,采用分层池化方法和多级分类令牌聚合方法,通过处理不同的序列长度并聚合它们,有效地检测欺骗证据。在 ASVspoof 2021 Deepfake 数据集上的实验结果显示,HM-Conformer 的等错误率为 15.71%,与最近的系统相比,表现竞争性能。