如犬相语:人类到非人类生物的声音转换
探索利用深度学习技术进行声音转换,识别原始说话者的可行性,通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性,并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。
Apr, 2024
2020 声音转换挑战赛第三版主要比较和理解同一数据集上构建的不同语音转换系统在两个任务,即内语言半对称和跨语言语音转换上的表现,并在众包听测试中表现出大量使用深度学习方法的转换技术的快速进展,但未达到人类级的自然性。
Aug, 2020
本文研究狗的声音,并探索利用在人类语音上预训练的自监督语音表示模型来解决狗吠分类任务,该任务与人类语音识别中的任务有相似之处。我们具体研究了狗的识别、品种鉴定、性别分类和语境关联四个任务,并表明使用语音嵌入表示可以显著改善简单分类基线。此外,我们还发现在几个任务中,预训练于大规模人类语音声学的模型可以提供额外的性能提升。
Apr, 2024
本文提出了一种使用仅一次源和目标说话者示例语音,通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法,无需事先见过源和目标说话者训练模型即可执行声音转换,目标语音及说话者的相似性得到了客观和主观的评估,同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。
Apr, 2019
这篇论文介绍了一种新颖的语音转换(VC)模型,它由文本指令引导,比如 “以慢速和低沉的音调清晰地说话” 或 “以开朗少年的声音说话”。与传统方法依赖于参考话语来确定转换语音的属性不同,我们的模型为语音转换增加了多样性和特定性。提出的 VC 模型是一种神经编解码语言模型,处理离散代码序列,生成转换语音的代码序列。它利用文本指令作为风格提示来修改给定语音的韵律和情感信息。与以往的方法相比,我们的模型以端到端的方式处理语音的各种信息,而不再依赖于使用不同的编码器来处理源语音的韵律和内容等不同方面。实验证明了我们的模型在理解指令并产生合理结果方面的令人印象深刻的能力。
Sep, 2023
本文提出了 CycleGAN-VC2,它是 CycleGAN-VC 的改进版本,加入了三种新技术:改进的目标函数(两步对抗性损失)、改进的生成器(2-1-2D CNN)和改进的鉴别器(PatchGAN),经过客观和主观评估,表明 CycleGAN-VC2 在语音转换任务中具有更接近目标的特征序列,且自然度和相似度更好。
Apr, 2019
本文提出了使用循环一致对抗网络(CycleGAN)进行非平行数据语音转换训练的方法,并通过主观评价证明其优于 Merlin 开源神经网络语音合成系统和基于 GAN 的平行 VC 系统。这是非平行 VC 方法表现超过最先进的平行 VC 方法的首次研究。
Apr, 2018
本文给出了语音转换技术及其性能评估方法的最新进展概述,并讨论了这些技术的优劣。同时还报告了最近语音转换挑战的表现和提供了可用于语音转换研究的资源概述。
Aug, 2020
该论文提出了一种基于 VAW-GAN 的非平行语音转换框架,可以用于从未对齐的语音语料库中构建语音转换系统,并展示了该框架的有效性和提升的转换质量。
Apr, 2017