以深假音频作为训练自动语音转文字模型的数据增强技术

Sep, 2023

以深假音频作为训练自动语音转文字模型的数据增强技术

Deepfake audio as a data augmentation technique for training automatic speech to text transcription models

Alexandre R. Ferreira, Cláudio E. C. Campelo

TL;DR使用深度伪造音频的数据增广技术，通过在各种情景下训练语音转文字模型，验证了提出的框架。

Abstract

To train transcriptor models that produce robust results, a large and diverse labeled dataset is required. Finding such data with the necessary characteristics is a challenging task, especially for languages less popular than English. Moreover, producing such data requires significant

transcription models labeled dataset data augmentation deepfake audio speech to text models

发现论文，激发创造

低资源表达文本朗读的分布增强

本文介绍了一种新的数据增强技术，用于文本到语音的任务，能够生成新的（文本，音频）训练样本，而无需额外的数据。该方法可增加训练期间可用的文本条件的多样性，有助于减少过拟合，特别是在低资源环境下。我们将文本和音频段进行替换以确保语法正确性，并采取额外措施确保合成的语音不含有由于组合不一致的音频样本而导致的伪影。感知评估结果表明，我们的方法改善了许多数据集、说话人和 TTS 体系结构的语音质量，并能大大提高基于注意力的 TTS 模型的鲁棒性。

Feb, 2022

FakeAVCeleb: 一种新的音视频多模态 Deepfake 数据集

针对如今深度学习技术生成的深度伪造技术的滥用所带来的严重安全和隐私问题，本研究提出了 FakeAVCeleb 这一包含视频和相应的合成唇同步伪造音频的新型多模态 Audio-Video Deepfake 数据集，其有助于打破现存音频和视频上的种族偏见，进一步帮助发展多模态深度伪造检测器。

Aug, 2021

口语中老年痴呆症检测的数据增强

本文通过数据增广方法研究痴呆症检测任务，并在两种建模方式中进行实证评估，结果表明数据增广可提高文本和音频领域的性能。

Jun, 2022

WaveFake: 一份数据集，用以方便音频 Deepfake 检测

本文介绍了一些用于分析音频信号的常见信号处理技术。我们提供了一个新的数据集，并采用了两个基线模型，以便进一步研究深层次的生成建模在音频信号领域的应用。

Nov, 2021

低资源语音识别的语音合成数据增强

本研究旨在提出一种新的数据增强方法来改善自动语音识别模型，该方法生成合成文本和合成音频，使用该方法可以提高 Quechua 语言的 ASR 模型的词错误率（WER）达到 8.73％的改善。

Apr, 2022

跨领域音频深度伪造检测：数据集与分析

通过使用五种先进的零样本文本转语音模型生成超过 300 小时的语音数据，构建了一个新的跨领域的 ADD 数据集。通过新颖的攻击增强训练方法，Wav2Vec2-large 模型和 Whisper-medium 模型分别获得了 4.1％和 6.5％的等误差率，展示了出色的少样本 ADD 能力。然而，神经编解码器压缩技术对检测准确性产生重大影响，需要进一步研究。

Apr, 2024

自动身份识别对音频视觉深度伪造的漏洞

该研究论文介绍了首个真实的音频 - 视觉深度伪造数据库 SWAN-DF，其中嘴唇和语音同步，并具有高质量的视觉和音频。研究表明，通过调整现有的预训练深度伪造模型来适应特定身份，可以在超过 90% 的时间内成功欺骗人脸和说话人识别系统，并获得非常逼真的伪造视频。

Nov, 2023

用合成标题改进文本到音频模型

通过语音标注管道，使用音频语言模型合成准确且多样的音频标注，提供了合成标注数据集以及训练基于合成标注的文本转音频模型，取得了新的最先进的结果。

Jun, 2024

深度伪造语音的实时检测

生成式人工智能在语音领域有着重要的隐私和道德威胁，该研究通过生成了 DEEP-VOICE 数据集，并利用机器学习模型进行统计分析和超参数优化，最终实现了 99.3% 的准确分类，并能够实时检测 AI 生成的语音。

Aug, 2023

基于 CNN 的 DeepFake 视频检测中的训练策略和数据增强

本文主要研究内容为探索 CNN-based detectors 在进行基于不同训练策略和数据增强技术的测试集和训练集的情况下，针对深度伪造视频中面部伪造的检测系统的不同影响。

Nov, 2020