Jun, 2024

多头自注意力中的时间通道建模用于合成语音检测

TL;DR使用Transformer模型,通过引入Temporal-Channel Modeling(TCM)模块来增强multi-head self-attention(MHSA)对于捕捉时域-频域依赖关系的能力,以提升合成语音检测效果。在ASVspoof 2021数据集上进行的实验表明,仅使用0.03M额外参数的TCM模块,在等误拒曲线(EER)指标上超过了当前最先进系统9.25%的性能。进一步的消融研究显示,同时利用时域和频域信息对于检测合成语音效果最好。