谁是真实的讲者

Apr, 2024

Who is Authentic Speaker

Qiang Huang

TL;DR探索利用深度学习技术进行声音转换，识别原始说话者的可行性，通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性，并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。

Abstract

voice conversion (VC) using deep learning technologies can now generate high quality one-to-many voices and thus has been used in some practical application fields, such as entertainment and healthcare. However,

voice conversion deep learning authentic speakers converted voices vlad

发现论文，激发创造

语音转换及其挑战：从统计建模到深度学习的概述

本文给出了语音转换技术及其性能评估方法的最新进展概述，并讨论了这些技术的优劣。同时还报告了最近语音转换挑战的表现和提供了可用于语音转换研究的资源概述。

Aug, 2020

Zero-shot 伪造语音进行说话人去识别

提出了一种名为 DeID-VC 的系统，利用变分自编码器（VAE）生成伪人声以保护用户的语音隐私，可在发言者或话语层面分配独特的伪人声，并通过两个新的学习目标缩小了训练和推理之间的差距，实验结果表明与基线相比，DeID-VC 方法在可读性和去识别性方面都有显著改善。

Sep, 2022

深度伪造语音的实时检测

生成式人工智能在语音领域有着重要的隐私和道德威胁，该研究通过生成了 DEEP-VOICE 数据集，并利用机器学习模型进行统计分析和超参数优化，最终实现了 99.3% 的准确分类，并能够实时检测 AI 生成的语音。

Aug, 2023

FragmentVC: 基于端到端提取、融合细粒度语音片段的注意力任意语音转换

本研究提出了 FragmentVC 的方法，通过 Wav2Vec 2.0 获取源说话者话语的潜在语音结构，通过目标说话者话语的频谱特征获取目标说话者的细节音频片段，并使用 Transformer 关注机制将其融合到所需的话语中，无需考虑内容和说话者信息的区分，仅基于重构损失进行训练，结果显示优于 AdaIN-VC 和 AutoVC 等先进方法。

Oct, 2020

使用实例标准化分离说话者和内容表示进行单次语音转换

本文提出了一种使用仅一次源和目标说话者示例语音，通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法，无需事先见过源和目标说话者训练模型即可执行声音转换，目标语音及说话者的相似性得到了客观和主观的评估，同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。

Apr, 2019

重塑语音：基于深度学习的声音转换的范围性综述

本文通过一项全面综述，探讨了现代语音转换系统中深度学习在语音分析、合成和分离语音表示学习中的应用，总结了基于深度学习的语音转换中最常用的方法，并突出了社区内的常见陷阱。最后，本文总结了所获得的知识，确定了主要挑战，并提出了未来研究方向的建议。

Nov, 2023

揪出你和我：揭示语音转换技术对抗源说话人声纹的方法

通过使用 Revelio 模型，结合差分纠正算法，本文成功恢复了高品质语音转换方法合成音频中源说话人语音特征，且在性别转换、未知语言和电话网络中表现出了鲁棒性，可通过说话人验证和识别系统跟踪源说话人。

Feb, 2023

逐步提升语音识别和语音转换

本论文中，我们提出了一种新颖的迭代方法，用于同时提高自动语音识别模型和语音转换模型。我们在低数据资源情况下，通过使用语音转换模型作为数据增强方法来进一步微调 ASR 模型，从而实验性地展示了两个模型的性能提高。

May, 2023

基于稳健解缠变分语音表示学习的零样本语音转换

本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换，通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离，并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能，不仅在客观评估上表现良好，而且在主观评估方面具有鲁棒性，即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。

Mar, 2022

2018 年语音转换挑战赛：促进并行和非并行方法的开发

本文主要介绍 2018 年语音转换挑战赛，包括任务及相关技术和结果总结。

Apr, 2018