Apr, 2021

Proteno:基于少量数据的文本归一化技术,用于快速部署文本转语音系统

TL;DR使用少于 3% 英文数据的量,我们提出了一种新颖的体系结构来促进多种语言的 TTS 文本归一化系统,将 TN 视为一个序列分类问题,并提出了一种细粒度的分词机制,该机制使系统能够从训练数据本身学习大部分类及其归一化,同时结合最少的预先编码的语言知识来处理其他类别,我们发表了 TN 在西班牙语和泰米尔语 TTS 中的首个结果,并证明了该方法的性能与英文上的以前工作相当。