Jul, 2021

基于部分推理和双向融合的文本语音编辑系统

TL;DR本文介绍了一种名为 EditSpeech 的语音编辑系统的设计、实现和评估,该系统允许用户对给定的语音进行单词的删除、插入和替换,同时保持原始语音质量和自然度不受影响。EditSpeech 是基于神经文本到语音(NTTS)综合框架开发的,使用了部分推理和双向融合技术,有利于有效地吸收与编辑区域相关的上下文信息。在英语和汉语的多说话人场景下,EditSpeech 系统进行了开发和评估。客观和主观评估表明,EditSpeech 在低频谱变形和优选语音质量方面优于几种基线系统。此外,网络上可以找到此文的音频样例。