探索绿色 AI 用于音频深度伪造检测
本文提出了基于深度学习的深伪音频检测系统,通过多种变换方法和不同的滤波器转换输入音频为频谱图,并评估了多种深度学习模型在分类任务上的性能,最终融合各种方法实现了在 ASVspoofing 2019 挑战中竞争力强的伪音频检测。
Jul, 2024
本文提出了一种完全自动化的端到端虚假音频检测方法,使用了 wav2vec 预训练模型和修改版的 differentiable architecture search 算法(light-DARTS),在 ASVspoof 2019 LA 数据集上取得了 1.08% 的等错误率,性能优于现有的单一系统。
Aug, 2022
本研究旨在评估在实时通信平台上采用静态深假音频检测模型的可行性,研发了可在多平台上运行的可执行软件,并使用 ASVspoof 2019 数据集实现了基于 Resnet 和 LCNN 架构的两个深假音频检测模型,达到了与 ASVspoof 2019 挑战基准的比较性能。该研究提出了增强这些模型的策略和框架,为在通信平台上实现实时深假音频检测铺平了道路,从而推动音频流安全性的进一步发展,并确保在动态实时通信场景下具备强大的检测能力。
Mar, 2024
生成式人工智能在语音领域有着重要的隐私和道德威胁,该研究通过生成了 DEEP-VOICE 数据集,并利用机器学习模型进行统计分析和超参数优化,最终实现了 99.3% 的准确分类,并能够实时检测 AI 生成的语音。
Aug, 2023
这篇论文展示了对真实音频数据集和假重建数据集进行分类器训练的可能性与出乎意料的容易程度,达到了 99.8% 的令人信服的准确率,标志着音乐深度伪造检测器的首次发表。然而,通过对其他领域伪造检测的几十年文献的了解,我们强调一个好的测试得分并不是故事的结束,而且指出部署的检测器可能存在的问题与未来研究方向。
May, 2024
利用小波包和短時傅里叶變換等技術,用于波形数据处理,實現了更輕量級的檢測器,用于對抗利用生成式神經網絡制造的合成語音的詐騙行為,對新型 Avocado 和 BigVGAN 網絡的檢測效果更佳。
May, 2023
该研究论文介绍了首个真实的音频 - 视觉深度伪造数据库 SWAN-DF,其中嘴唇和语音同步,并具有高质量的视觉和音频。研究表明,通过调整现有的预训练深度伪造模型来适应特定身份,可以在超过 90% 的时间内成功欺骗人脸和说话人识别系统,并获得非常逼真的伪造视频。
Nov, 2023
本论文提出了一个用于系统指纹识别的 deepfake 音频数据集,并进行了初步调查,数据集由五个语音合成系统使用最先进的深度学习技术收集而成,为系统指纹识别方法的开发提供了一些基准和研究发现。
Aug, 2022
该研究主要关注基于音频语言模型(ALM)的深度伪造音频的检测方法,提出了 CSAM 策略来解决原始 SAM 的领域上升偏差问题,并通过 Codecfake 数据集和 vocoded 数据集的共同训练,在各种测试条件下实现了最低的平均等错误率(EER)为 0.616%。
May, 2024
该研究评估了大规模语言模型的二氧化碳排放,并提出减少碳排放的措施,探讨了硬件选择对二氧化碳排放的影响。基于结果,提出了培训更环境友好的人工智能模型的可能性,并认为可以在不牺牲其鲁棒性和性能的情况下实现。
Apr, 2024