通向通用文本指导的语音转换

Sep, 2023

Towards General-Purpose Text-Instruction-Guided Voice Conversion

Chun-Yi Kuan, Chen An Li, Tsu-Yuan Hsu, Tse-Yang Lin, Ho-Lam Chung...

TL;DR这篇论文介绍了一种新颖的语音转换（VC）模型，它由文本指令引导，比如 “以慢速和低沉的音调清晰地说话” 或 “以开朗少年的声音说话”。与传统方法依赖于参考话语来确定转换语音的属性不同，我们的模型为语音转换增加了多样性和特定性。提出的 VC 模型是一种神经编解码语言模型，处理离散代码序列，生成转换语音的代码序列。它利用文本指令作为风格提示来修改给定语音的韵律和情感信息。与以往的方法相比，我们的模型以端到端的方式处理语音的各种信息，而不再依赖于使用不同的编码器来处理源语音的韵律和内容等不同方面。实验证明了我们的模型在理解指令并产生合理结果方面的令人印象深刻的能力。

Abstract

This paper introduces a novel voice conversion (VC) model, guided by text instructions such as "articulate slowly with a deep tone" or "speak in a cheerful boyish voice". Unlike traditional methods that rely on reference utterances to determine the attributes of the converted speech, o

voice conversion text instructions neural codec language model style prompts end-to-end model

发现论文，激发创造

基于多任务学习的情感语音转换与语音合成

本文提出一种使用多任务学习的语音转换器，该转换器使用基于 seq2seq 的文本到语音作为嵌入空间，旨在提高保留语言信息的能力。在韩国男性情感文本 - 语音数据集上进行的实验表明，多任务学习有助于在语音转换中保留语言内容。

Nov, 2019

离散无监督单元实现的语音风格转换

该研究提出了一种基于自监督预训练模型的无配对数据标准的语音转换方法，不仅能够转换说话人的音色，而且还能够转换韵律及音调等语音韵律信息，并且在定量和定性评估中优于其他方法。

Dec, 2022

基于语音合成的小数据情感语音转换：两阶段序列到序列训练

本文提出了一种新的 2 阶段训练策略，用于在保留语言内容和说话者身份的同时改变话语的情感状态，包括用于转换情感样式和语言信息的技术，并在客观和主观评估中显著改善目前的技术水平。

Mar, 2021

TGAVC: 使用文本引导和对抗训练来改进自编码器语音转换

本文提出了一种名为 TGAVC 的语音转换框架，通过望文生义的内容嵌入，辅助提取正文内容并应用对抗训练消除说话人身份信息，从而更有效地分离语音的内容和音色。实验结果表明，TGAVC 模型在自然度和转换语音的相似度上优于 AutoVC。

Aug, 2022

AGAIN-VC: 一种使用激活引导和自适应实例归一化的一次性语音转换

本文提出了基于激活引导和自适应实例标准化的 AGAIN-VC 系统，改进了合成质量和说话人相似性之间的权衡问题，表现最佳。

Oct, 2020

UnifySpeech: 零样本文本转语音和语音转换的统一框架

该论文提出了 UnifySpeech 模型，它首次将文字转语音（TTS）和语音转换（VC）结合到一个框架中，通过矢量量化和域限制技术，加强了 TTS 的说话人建模能力和 VC 的语音内容解耦能力。

Jan, 2023

谁是真实的讲者

探索利用深度学习技术进行声音转换，识别原始说话者的可行性，通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性，并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。

Apr, 2024

通过基于流的语音转换进行跨语言知识蒸馏，用于稳健的多语言文本到语音转换

该研究提出了一个跨语言语音合成框架，包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法，我们的评估表明这种方法优于现有的基于多语言训练模型的方法，并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性，尤其适用于资源匮乏环境。

Sep, 2023

神经声码器的多目标情感语音转换

本文介绍了一种利用深度双向长短期记忆网络和神经合成器来进行语音的情感转换，同时使用包含丰富语言信息的音素后验概率作为辅助输入特征，提高了转换效果的多目标情感转换架构 Multi-target EVC (MTEVC)，并将条件 WaveNet 和基于流的 WaveNet (FloWaveNet) 神经合成器作为其核心部件，训练了这些神经合成器，并将语音库中的说话者信息以及情感信息定义为附加特征。实验结果的客观度量和主观评估验证了提出的 MTEVC 架构在情感语音转换方面的有效性。

Apr, 2020

使用实例标准化分离说话者和内容表示进行单次语音转换

本文提出了一种使用仅一次源和目标说话者示例语音，通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法，无需事先见过源和目标说话者训练模型即可执行声音转换，目标语音及说话者的相似性得到了客观和主观的评估，同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。

Apr, 2019