Jan, 2024

前端文本处理中的多任务学习在 TTS 中的应用

TL;DR我们提出了一个多任务学习(MTL)模型,用于共同完成文本转语音(TTS)前端中常见的三个任务:文本规范化(TN),词性标注(POS)和同音异义词消歧(HD)。我们的框架利用了树状结构,其中包含一个主干,用于学习共享表示,以及分别的任务特定头。我们进一步结合了一个预训练的语言模型,利用其内置的词汇和语境知识,并研究了如何最好地利用其嵌入以最大程度地使我们的多任务模型受益。通过任务层面的消融实验,我们证明了我们在所有三个任务上训练得到的完整模型相比于只训练于个别或子组合任务的模型具有最强的整体性能,证实了我们的多任务学习框架的优势。最后,我们引入了一个新的 HD 数据集,其中包含多种上下文中平衡的句子,用于研究各种同音异义词及其发音。我们表明,将该数据集纳入训练中相比于仅使用常用但不均衡的预先存在的数据集,显著提高了 HD 性能。