Sep, 2023
FunCodec: 一个基础、可重现和可集成的神经语音编解码开源工具包
FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit for Neural Speech Codec
Zhihao Du, Shiliang Zhang, Kai Hu, Siqi Zheng
TL;DRFunCodec 是一个基于开源语音处理工具 FunASR 的基础神经语音编解码器工具包,提供训练可重现、推理脚本用于最新的神经语音编解码器模型,如 SoundStream 和 Encodec,并且可以轻松集成到下游任务中,如语音识别。其中,还提供预训练模型,可用于学术或一般用途。此工具包还进一步提出了频域编解码器模型 FreqCodec,与其他工具包和发布模型相比,在相同的压缩比下,FunCodec 可以实现更好的重构质量,并且证明预训练模型适用于包括自动语音识别和个性化文本转语音合成在内的下游任务。