Feb, 2024

基于修补频谱变换器的压缩鲁棒合成语音检测

TL;DR我们提出了一种名为Patched Spectrogram Synthetic Speech Detection Transformer (PS3DT)的合成语音检测器,通过将时间域语音信号转换成mel频谱图,并使用变压器神经网络在片段中处理该频谱图,来检测合成语音。我们评估了PS3DT在ASVspoof2019数据集上的检测性能,并研究了PS3DT在In-the-Wild数据集上的推广性能。PS3DT对于压缩和电话质量合成语音具有较好的鲁棒性,比其他方法更好地检测电话质量合成语音。