Syn-Att：通过半监督的未知多类 CNN 集成进行合成音频归属

Sep, 2023

Syn-Att：通过半监督的未知多类 CNN 集成进行合成音频归属

Syn-Att: Synthetic Speech Attribution via Semi-Supervised Unknown Multi-Class Ensemble of CNNs

Md Awsafur Rahman, Bishmoy Paul, Najibul Haque Sarker, Zaber Ibn Abdul Hakim, Shaikh Anowarul Fattah...

TL;DR通过将语音转化为对数梅尔频谱图，利用半监督学习和集成方法来提高稳健性和泛化性，本文提出了一种将合成语音与生成器相关联的新策略，并在 IEEE SP Cup 2022 的 ICASSP 挑战中，准确率相较 Eval 2 提高了 12-13%，Eval 1 提高了 1-2%。

Abstract

With the huge technological advances introduced by deep learning in audio & speech processing, many novel synthetic speech techniques achieved incredible realistic results. As these methods generate realistic fake human voices, they can be used in malicious acts such as people imitatio

synthetic speech audio processing speech detection log-mel spectrogram cnn

发现论文，激发创造

众人一心、一心为公：基于深度学习的合成语音检测的特征融合

通过融合不同的特征集，本文提出了一个模型，用于合成语音检测任务，取得了比现有解决方案更好的性能，并在不同场景和数据集上进行了测试，证明了其对抗反取证攻击的强健性和泛化能力。

Jul, 2023

基于深度学习的合成语音自然度评估

本文提出了一种新的客观预测合成语音自然度的模型，采用 CNN-LSTM 网络逐端训练，独立于语言，能用于评估文本转语音或语音转换系统的效果，通过在多个数据集上测试证明模型的可靠性。

Apr, 2021

检测合成语音的深度时频艺术品

本文介绍了音频深度合成检测（ADD）挑战的参赛系统，在低质量伪造音频检测和部分伪造音频检测领域取得了不错的成绩，通过使用时间信号、频谱特征和深度嵌入特征等方法检测音频中的光谱 - 时间畸变，并使用各种方法增强了数据的质量以及进行筛选，最终排名分别为第四和第五。

Oct, 2022

基于 ConvNeXt 的音频防欺诈神经网络

本文提出了一种基于 ConvNeXt 网络架构的轻量级端到端反欺骗模型，通过加入通道注意力块和使用 focal loss 函数，我们的模型可以专注于最具信息量的语音表示的子带和难以分类的样本，实验表明我们的系统在 ASVSpoof 2019 LA 评估数据集中可以实现 0.64％的等误差率和 0.0187 的 min-tDCF，超过了当前最先进系统。

Sep, 2022

对抗性语音合成的协作水印技术

用协同训练方案为合成语音水印化提供协助，并显示 HiFi-GAN 神经声码器与 ASVspoof 2021 基线反欺骗模型的合作训练能够持续提高检测性能，同时演示了协同训练如何与增强策略相结合以增强对噪声和时间拉伸的鲁棒性。最后，听测试表明，协同训练对声码器语音的感知质量几乎没有不良影响。

Sep, 2023

DeepSonar: 有效且稳健的 AI 合成虚假语音检测

文中提出了一种新方法 DeepSonar，利用神经元行为监测技术实现对 AI 合成的假声的检测，已在包括谷歌、百度在内的三种语言数据集上进行了实验，检测率达到了 98.1％平均准确率，误报率低于 2％。

May, 2020

基于深度学习的音频伪造检测网络的泛化

利用小波包和短時傅里叶變換等技術，用于波形数据处理，實現了更輕量級的檢測器，用于對抗利用生成式神經網絡制造的合成語音的詐騙行為，對新型 Avocado 和 BigVGAN 網絡的檢測效果更佳。

May, 2023

针对对抗音频分类的通道特征自适应重新校准

本文研究了 DeepFake Audio 从检测角度进行了研究，并提出了使用注意力特征融合的通道重新校准方法进行合成语音检测。同时，我们也通过使用 SE 块和 LFCC/MFCC 的结合，改进了 Resnet 模型，并提出了更好的输入特征嵌入方式，使得即使较为简单的模型在合成语音分类任务上也能够很好地推广。经过针对 Fake or Real 数据集的训练，我们的模型在 FoR 数据上能够获得 95％的测试准确度，并在使用不同的生成模型生成样本后适应该框架后，达到了 90％的平均准确度。

Oct, 2022

公平 SSD: 认知合成语音检测器中的偏见

现有的合成语音检测器存在性别、年龄和口音偏见，需要进一步研究以确保公正性。

Apr, 2024

合成人脸图像的多通道跨模态检测

通过使用跨媒体聚焦损失函数分析频率和可见光谱中的信息，我们提出了一种用于检测完全合成面部图像的多通道架构，并与几种使用二进制交叉熵训练的相关架构进行比较，在跨模型实验中展示了受跨媒体聚焦损失函数监督的所提出的架构通常具有最具竞争力的性能。

Nov, 2023