针对对抗音频分类的通道特征自适应重新校准

Oct, 2022

针对对抗音频分类的通道特征自适应重新校准

Adaptive re-calibration of channel-wise features for Adversarial Audio Classification

Vardhan Dongre, Abhinav Thimma Reddy, Nikhitha Reddeddy

TL;DR本文研究了 DeepFake Audio 从检测角度进行了研究，并提出了使用注意力特征融合的通道重新校准方法进行合成语音检测。同时，我们也通过使用 SE 块和 LFCC/MFCC 的结合，改进了 Resnet 模型，并提出了更好的输入特征嵌入方式，使得即使较为简单的模型在合成语音分类任务上也能够很好地推广。经过针对 Fake or Real 数据集的训练，我们的模型在 FoR 数据上能够获得 95％的测试准确度，并在使用不同的生成模型生成样本后适应该框架后，达到了 90％的平均准确度。

Abstract

deepfake audio, unlike DeepFake images and videos, has been relatively less explored from detection perspective, and the solutions which exist for the synthetic speech classification either use complex networks o

deepfake audio synthetic speech classification attention feature fusion squeeze excitation blocks linear frequency cepstral coefficients

发现论文，激发创造

众人一心、一心为公：基于深度学习的合成语音检测的特征融合

通过融合不同的特征集，本文提出了一个模型，用于合成语音检测任务，取得了比现有解决方案更好的性能，并在不同场景和数据集上进行了测试，证明了其对抗反取证攻击的强健性和泛化能力。

Jul, 2023

单中心损失监督的面部伪造检测中的频率感知辨别特征学习

本文提出了一种新颖的、面向频率的、区分特征学习框架，包括单中心损失和自适应频率特征生成模块，可以有效地检测和抵御面部伪造攻击。在 FF ++ 数据集上的实验结果表明了该框架的有效性和优越性。

Mar, 2021

基于 ConvNeXt 的音频防欺诈神经网络

本文提出了一种基于 ConvNeXt 网络架构的轻量级端到端反欺骗模型，通过加入通道注意力块和使用 focal loss 函数，我们的模型可以专注于最具信息量的语音表示的子带和难以分类的样本，实验表明我们的系统在 ASVSpoof 2019 LA 评估数据集中可以实现 0.64％的等误差率和 0.0187 的 min-tDCF，超过了当前最先进系统。

Sep, 2022

为主动发言人检测提供的端到端音视频特征融合

本文提出了一种基于 VGG-M 和 Mel Cepstrum 系数的双流端到端框架，利用两个 BiGRU 层来处理音视频输入的时间动态，并在 AVAAcitveSpeaker 数据集上的实验结果表明，该模型具有更好的鲁棒性和更好的推断时间。

Jul, 2022

基于深度学习的音频伪造检测网络的泛化

利用小波包和短時傅里叶變換等技術，用于波形数据处理，實現了更輕量級的檢測器，用于對抗利用生成式神經網絡制造的合成語音的詐騙行為，對新型 Avocado 和 BigVGAN 網絡的檢測效果更佳。

May, 2023

利用 SE-Res2Net-Conformer 结构进行合成语音检测和音频剪辑检测

本文提出了一种使用 Res2Net 和 Conformer block 相结合的架构来改进声纹鉴定的欺骗对策，同时也提出了一种新的音频拼接检测问题的深度学习方法，该方法可以检测拼接边界而不是完整的拼接片段。

Oct, 2022

Syn-Att：通过半监督的未知多类 CNN 集成进行合成音频归属

通过将语音转化为对数梅尔频谱图，利用半监督学习和集成方法来提高稳健性和泛化性，本文提出了一种将合成语音与生成器相关联的新策略，并在 IEEE SP Cup 2022 的 ICASSP 挑战中，准确率相较 Eval 2 提高了 12-13%，Eval 1 提高了 1-2%。

Sep, 2023

全自动端到端假音频检测

本文提出了一种完全自动化的端到端虚假音频检测方法，使用了 wav2vec 预训练模型和修改版的 differentiable architecture search 算法（light-DARTS），在 ASVspoof 2019 LA 数据集上取得了 1.08% 的等错误率，性能优于现有的单一系统。

Aug, 2022

合成人脸图像的多通道跨模态检测

通过使用跨媒体聚焦损失函数分析频率和可见光谱中的信息，我们提出了一种用于检测完全合成面部图像的多通道架构，并与几种使用二进制交叉熵训练的相关架构进行比较，在跨模型实验中展示了受跨媒体聚焦损失函数监督的所提出的架构通常具有最具竞争力的性能。

Nov, 2023

AVFF：音视特征融合用于视频深度伪造检测

通过跨模态学习方法的视听特征融合，我们提出了一种用于改进深假检测的两阶段方法，可以明确地捕捉音频和视觉模态之间的对应关系，并在真实和伪造视频上进行监督学习，取得了 98.6% 的准确率和 99.1% 的 AUC，相较于当前的音视混合最先进技术，准确率和 AUC 分别提高了 14.9% 和 9.9%。

Jun, 2024