谁是真实的讲者
本文给出了语音转换技术及其性能评估方法的最新进展概述,并讨论了这些技术的优劣。同时还报告了最近语音转换挑战的表现和提供了可用于语音转换研究的资源概述。
Aug, 2020
提出了一种名为 DeID-VC 的系统,利用变分自编码器(VAE)生成伪人声以保护用户的语音隐私,可在发言者或话语层面分配独特的伪人声,并通过两个新的学习目标缩小了训练和推理之间的差距,实验结果表明与基线相比,DeID-VC 方法在可读性和去识别性方面都有显著改善。
Sep, 2022
生成式人工智能在语音领域有着重要的隐私和道德威胁,该研究通过生成了 DEEP-VOICE 数据集,并利用机器学习模型进行统计分析和超参数优化,最终实现了 99.3% 的准确分类,并能够实时检测 AI 生成的语音。
Aug, 2023
本研究提出了 FragmentVC 的方法,通过 Wav2Vec 2.0 获取源说话者话语的潜在语音结构,通过目标说话者话语的频谱特征获取目标说话者的细节音频片段,并使用 Transformer 关注机制将其融合到所需的话语中,无需考虑内容和说话者信息的区分,仅基于重构损失进行训练,结果显示优于 AdaIN-VC 和 AutoVC 等先进方法。
Oct, 2020
本文提出了一种使用仅一次源和目标说话者示例语音,通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法,无需事先见过源和目标说话者训练模型即可执行声音转换,目标语音及说话者的相似性得到了客观和主观的评估,同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。
Apr, 2019
本文通过一项全面综述,探讨了现代语音转换系统中深度学习在语音分析、合成和分离语音表示学习中的应用,总结了基于深度学习的语音转换中最常用的方法,并突出了社区内的常见陷阱。最后,本文总结了所获得的知识,确定了主要挑战,并提出了未来研究方向的建议。
Nov, 2023
通过使用 Revelio 模型,结合差分纠正算法,本文成功恢复了高品质语音转换方法合成音频中源说话人语音特征,且在性别转换、未知语言和电话网络中表现出了鲁棒性,可通过说话人验证和识别系统跟踪源说话人。
Feb, 2023
本论文中,我们提出了一种新颖的迭代方法,用于同时提高自动语音识别模型和语音转换模型。我们在低数据资源情况下,通过使用语音转换模型作为数据增强方法来进一步微调 ASR 模型,从而实验性地展示了两个模型的性能提高。
May, 2023
本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换,通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离,并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能,不仅在客观评估上表现良好,而且在主观评估方面具有鲁棒性,即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。
Mar, 2022