用 DNN 滤波器组倒谱系数进行欺骗检测

Feb, 2017

用 DNN 滤波器组倒谱系数进行欺骗检测

DNN Filter Bank Cepstral Coefficients for Spoofing Detection

Hong Yu, Zheng-Hua Tan, Zhanyu Ma, Jun Guo

TL;DR本文提出一种新的基于深度神经网络滤波器组的倒谱特征来识别自然语音与攻击音频之间的差异，该特征在检测未知攻击时比现有基于线性频率倒谱系数分类器更加有效。

Abstract

With the development of speech synthesis techniques, automatic speaker verification systems face the serious challenge of spoofing attack. In order to improve the reliability of →

speech synthesis speaker verification deep neural network filter bank spoofing

发现论文，激发创造

复数值神经网络用于语音反欺骗

本文介绍了一种新的方法，通过使用复数值神经网络处理输入音频的 CQT 频域表示，结合了幅度谱图和原始音频处理方法的优点，既保留了相位信息又可使用可解释人工智能方法，结果表明该方法在 “野外” 反欺诈数据集上优于先前的方法，并通过可解释人工智能解释结果，剔除研究证明该模型已学会使用相位信息来检测声音伪造。

Aug, 2023

基于 ConvNeXt 的音频防欺诈神经网络

本文提出了一种基于 ConvNeXt 网络架构的轻量级端到端反欺骗模型，通过加入通道注意力块和使用 focal loss 函数，我们的模型可以专注于最具信息量的语音表示的子带和难以分类的样本，实验表明我们的系统在 ASVSpoof 2019 LA 评估数据集中可以实现 0.64％的等误差率和 0.0187 的 min-tDCF，超过了当前最先进系统。

Sep, 2022

SYSU 2015 Interspeech 自动说话人验证欺骗和对策竞赛系统

提出了一种基于多种 i-vector 子系统的得分融合方法，通过采用声学水平的 Mel 频率倒谱系数（MFCC）特征、相位水平的修改群延迟倒谱系数（MGDCC）和语音学水平的音素后验概率（PPP）串联特征来检测并对抗欺骗性语音信号。

Jul, 2015

基于原始波形 CLDNN 的端到端欺诈检测

本文介绍了一种基于原始波形的深度模型进行欺骗检测的方法，该模型同时作为特征提取器和分类器，消除了数据的任何预处理和后处理，通过使用卷积长短时神经网络（CLDNN），使得在 BTAS2016 数据集上系统性能从最佳 1.26％半总误差率（HTER）显著提高到现在的 0.82％HTER，并表现出在未知条件下也能很好地进行欺骗检测。

Jul, 2020

单中心损失监督的面部伪造检测中的频率感知辨别特征学习

本文提出了一种新颖的、面向频率的、区分特征学习框架，包括单中心损失和自适应频率特征生成模块，可以有效地检测和抵御面部伪造攻击。在 FF ++ 数据集上的实验结果表明了该框架的有效性和优越性。

Mar, 2021

学习卷积神经网络进行人脸反欺骗

本研究采用深度卷积神经网络（CNN）学习特征，在经过数据预处理后，能够大幅提高面部防欺诈性能，使得在 CASIA 和 REPLAY-ATTACK 数据集中相对错误率降低超过 70％，同时在两个数据集之间的交叉测试中，实验结果表明 CNN 能够获得更好的泛化能力，使用两个数据集的组合数据训练的网络在两个数据集之间具有更少的偏差。

Aug, 2014

深度神经网络中的特征学习 —— 基于语音识别任务的研究

本文研究表明，深度神经网络在语音识别任务中比浅层网络和高斯混合模型表现得更好，这是因为它们具有提取具有鲁棒性的区分性内部表示的能力。此外，我们表明 DNN 不能推广到与训练样本差异显著的测试样本，但是，如果训练数据足够代表性，DNN 的内部特征相对于说话人差异、带宽差异和环境失真是相对稳定的。这种稳定性使得基于 DNN 的识别器在不需要显式模型适应或特征归一化的情况下表现得和基于 GMMs 或浅层网络的现有系统一样好甚至更好。

Jan, 2013

面向鲁棒语音识别的语音增强和噪音感知网络

提出了一个基于噪声感知的训练框架，将增强语音引入到声学模型的多条件训练中，通过两个级联的神经结构来优化增强语音和语音识别，并取得了较好的实验结果。

Mar, 2022

深度说话者特征学习用于文本非依赖型说话者验证

本文研究使用卷积时延深度神经网络结构（CT-DNN）来学习说话人特征，实验结果表明 CT-DNN 可以产生高质量的说话人特征，即使使用单一特征（包括上下文的 0.3 秒），错误拒识率亦可低至 7.68%。

May, 2017

针对对抗音频分类的通道特征自适应重新校准

本文研究了 DeepFake Audio 从检测角度进行了研究，并提出了使用注意力特征融合的通道重新校准方法进行合成语音检测。同时，我们也通过使用 SE 块和 LFCC/MFCC 的结合，改进了 Resnet 模型，并提出了更好的输入特征嵌入方式，使得即使较为简单的模型在合成语音分类任务上也能够很好地推广。经过针对 Fake or Real 数据集的训练，我们的模型在 FoR 数据上能够获得 95％的测试准确度，并在使用不同的生成模型生成样本后适应该框架后，达到了 90％的平均准确度。

Oct, 2022