关键词zero-shot adaptive tts
搜索结果 - 2
- 基于语义标记预测的两阶段文本到语音的神经转换器
我们提出了一种以神经推导器为中心的新型文本转语音(TTS)框架,将整个 TTS 流程分为语义级序列到序列建模和细粒度声学建模阶段,并利用从 wav2vec2.0 嵌入中获取的离散语义标记。我们采用了一种名为令牌推导器的神经推导器,用于语义标 - 文本到语音的神经传感器和发声器:基于语义标记预测的方法
基于神经传导器的文本到语音 (TTS) 框架,通过使用从 wav2vec2.0 嵌入中获得的离散语义标记,易于采用神经传导器实现 TTS 框架,从而享受其单调对齐约束;该模型首先通过神经传导器生成对齐的语义标记,然后使用非自回归 (NAR)