Apr, 2024

面向并行 TTS 前端建模的先验不可知多尺度对比文本 - 音频预训练

TL;DR在本文中,我们提出了一种名为 TAP-FM 的新型 TTS 前端预测流水线,它包括 Multi-scale Contrastive Text-audio Pre-training(MC-TAP)协议和并行化的 TTS 前端模型,通过在无监督学习中采用多粒度对比预训练来获得更丰富的见解,以及执行 TN、PD 和 PBP 预测任务,实验证明了我们提出方法的卓越性能。