VQVC+: 基于向量量化和 U-Net 架构的一次性语音转换
本文提出通过使用向量量化 (VQ) 进行内容编码,并在训练期间引入互信息 (MI) 作为相关度度量,从而在无监督的情况下实现内容、说话人和音高表示的适当分离,以提高单次语音转换系统的性能。该方法在保留源语言内容和语调变化的同时,捕捉目标说话人的特征,实现了比现有单次语音转换系统更高的语音自然度和说话人相似度。
Jun, 2021
本文提出了基于激活引导和自适应实例标准化的 AGAIN-VC 系统,改进了合成质量和说话人相似性之间的权衡问题,表现最佳。
Oct, 2020
本文提出两种神经模型,均使用向量量化技术将连续特征映射为有限的编码,旨在利用无标签数据学习将语音的音素内容与说话人特定细节分离的离散表述。在 Zero Speech 2020 挑战赛的英语和印度尼西亚语数据上,我们的两个模型都优于 2019 年和 2020 年挑战赛的所有提交,相对提高超过 30%。
May, 2020
本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换,通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离,并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能,不仅在客观评估上表现良好,而且在主观评估方面具有鲁棒性,即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。
Mar, 2022
该论文提出了一种基于 VAW-GAN 的非平行语音转换框架,可以用于从未对齐的语音语料库中构建语音转换系统,并展示了该框架的有效性和提升的转换质量。
Apr, 2017
本文提出了一种使用仅一次源和目标说话者示例语音,通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法,无需事先见过源和目标说话者训练模型即可执行声音转换,目标语音及说话者的相似性得到了客观和主观的评估,同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。
Apr, 2019
探索利用深度学习技术进行声音转换,识别原始说话者的可行性,通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性,并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。
Apr, 2024
本文提出了一种新的艺术风格转换方案,它仅涉及一个带有仔细设计的瓶颈的自编码器,通过仅通过自重构损失进行训练,我们形式证明这种方案可以实现分布匹配的风格转换。 我们基于此方案提出了 AUTOVC,并在非平行数据的多对多语音转换中实现了最先进的结果,这是首次进行零样本语音转换。
May, 2019
本论文提出了一种语音转换模型,通过只使用两个扩充函数,自动将语音分解成四个部分,而不需要多个手工制作的特征或费力的瓶颈调整。所提出的模型简单但高效,并且实验结果表明,我们的模型在解缠效果和语音自然度方面均优于基线。
Jun, 2023
本文提出了一种名为 TGAVC 的语音转换框架,通过望文生义的内容嵌入,辅助提取正文内容并应用对抗训练消除说话人身份信息,从而更有效地分离语音的内容和音色。实验结果表明,TGAVC 模型在自然度和转换语音的相似度上优于 AutoVC。
Aug, 2022