探索利用深度学习技术进行声音转换,识别原始说话者的可行性,通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性,并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。
Apr, 2024
文中提出了一种新方法 DeepSonar,利用神经元行为监测技术实现对 AI 合成的假声的检测,已在包括谷歌、百度在内的三种语言数据集上进行了实验,检测率达到了 98.1%平均准确率,误报率低于 2%。
May, 2020
提出了歌声深度伪造检测任务,创建了第一个真实数据集 SingFake,包含 40 位歌手 5 种语言的 28.93 小时真实歌曲和 29.40 小时深度伪造歌曲片段,评估了四个最先进的口语对抗系统,发现在 SingFake 上训练相对于在口语测试数据上训练有显著改进,但也提出了未知歌手、通信编解码器、语言和音乐背景等挑战。
Sep, 2023
该研究论文介绍了首个真实的音频 - 视觉深度伪造数据库 SWAN-DF,其中嘴唇和语音同步,并具有高质量的视觉和音频。研究表明,通过调整现有的预训练深度伪造模型来适应特定身份,可以在超过 90% 的时间内成功欺骗人脸和说话人识别系统,并获得非常逼真的伪造视频。
Nov, 2023
利用小波包和短時傅里叶變換等技術,用于波形数据处理,實現了更輕量級的檢測器,用于對抗利用生成式神經網絡制造的合成語音的詐騙行為,對新型 Avocado 和 BigVGAN 網絡的檢測效果更佳。
May, 2023
使用深度伪造音频的数据增广技术,通过在各种情景下训练语音转文字模型,验证了提出的框架。
本研究旨在评估在实时通信平台上采用静态深假音频检测模型的可行性,研发了可在多平台上运行的可执行软件,并使用 ASVspoof 2019 数据集实现了基于 Resnet 和 LCNN 架构的两个深假音频检测模型,达到了与 ASVspoof 2019 挑战基准的比较性能。该研究提出了增强这些模型的策略和框架,为在通信平台上实现实时深假音频检测铺平了道路,从而推动音频流安全性的进一步发展,并确保在动态实时通信场景下具备强大的检测能力。
Mar, 2024
本文通过一项全面综述,探讨了现代语音转换系统中深度学习在语音分析、合成和分离语音表示学习中的应用,总结了基于深度学习的语音转换中最常用的方法,并突出了社区内的常见陷阱。最后,本文总结了所获得的知识,确定了主要挑战,并提出了未来研究方向的建议。
声音伪造,驱动主要是最近文本到语音合成技术的进展,对社会提出了重大挑战。我们主张从传统的二元范式即声音是 “真实” 或 “伪造” 进行观念转变,而将重点放在定位 “声音编辑” 上,这包括传统的修改、过滤和剪辑,以及文本到语音合成和语音变换系统。我们提出了六个类别,并策划了一个基于 M-AILABS 语料库的新挑战数据集,并提供了基线检测系统。我们认为,仅将声音分类为真实或伪造是一种危险的过度简化,将不能推动语音技术领域的发展。
Feb, 2024
该研究提出了一种新的音频深度伪造检测框架,利用标准 CPU 资源进行无缝训练,并借助自我监督学习模型的嵌入来使用经典机器学习算法,与常用的高碳足迹方法相比,取得了有竞争力的结果。