Nov, 2023

文本到语音的神经传感器和发声器:基于语义标记预测的方法

TL;DR基于神经传导器的文本到语音 (TTS) 框架,通过使用从 wav2vec2.0 嵌入中获得的离散语义标记,易于采用神经传导器实现 TTS 框架,从而享受其单调对齐约束;该模型首先通过神经传导器生成对齐的语义标记,然后使用非自回归 (NAR) 语音生成器从语义标记合成语音样本,该分离框架减轻了 TTS 的训练复杂性,使得每个阶段能够分别专注于语言和对齐建模以及细粒度声学建模;在零样本自适应 TTS 上的实验结果表明,通过客观和主观指标,该模型在语音质量和说话人相似度方面超过了基准模型;我们还研究了我们提出的模型的推断速度和语调可控性,展示了神经传导器在 TTS 框架中的潜力。