Feb, 2022

CampNet:基于上下文的端到端文本语音编辑中的掩码预测

TL;DR该论文提出了一种新的基于文本的语音编辑方法,称为具有上下文感知的掩蔽预测网络(CampNet),该模型可通过随机屏蔽语音的一部分来模拟文本编辑过程,并通过感知语音上下文预测遮蔽区域。此外,论文还提出了三种基于CampNet的文本编辑操作:删除、插入和替换,以覆盖各种语音编辑场景,并通过使用仅一句话的说话人自适应方法和基于CampNet的少量样本学习探索了语音伪造任务 。经过主观和客观实验,发现基于CampNet的语音编辑结果比TTS技术、手动编辑和VoCo方法更好。