Nov, 2023

CPU 上的低延迟实时语音转换

TL;DR我们将之前的音频处理和生成神经网络的结构应用于实时的多对一声音转换任务中,得到了具有低延迟和低资源使用的模型 LLVC(低延迟低资源声音转换),在 16kHz 比特率下延迟不到 20 毫秒,在消费级 CPU 上运行速度接近实时的 2.8 倍。LLVC 采用了生成对抗网络和知识蒸馏的结构来实现这种性能,据我们所知,LLVC 是开源声音转换模型中资源使用和延迟最低的。我们在 https://URL 提供开源样本、代码和预训练模型权重。