Jun, 2024

低延迟语音匿名化端到端流模型

TL;DR提出了一种流式模型来实现低延迟的说话人匿名化,通过使用轻量级内容编码器、预训练的说话人编码器和变化编码器,将语音信息解耦为语音内容、说话人身份和音调能量信息,并通过解码器重新合成语音信号,该模型实现了 230ms 的延迟,并在自然性、可理解性和隐私保护方面保持了最先进的性能。