Mar, 2021

PnG BERT:基于音素和字素的增强型 BERT 用于神经语音合成

TL;DR介绍了 PnG BERT,它是一种新的神经 TTS 编码器模型,使用输入的音素和字素表示以及它们之间的单词级对齐来增强原始的 BERT 模型。该模型可以进行自我监督的大型文本语料库的预训练,并通过 TTS 任务进行微调。实验结果表明,使用 PnG BERT 作为编码器进行预训练的神经 TTS 模型产生的语音韵律更自然,发音更准确,比仅使用音素输入而不预训练的基线模型表现更好。主观音频偏好评估表明,听者对使用 PnG BERT 合成的语音和专业演讲者的真实录音之间没有显着的统计差异。