Sep, 2024

低帧率语音编解码器:旨在快速高质量语音大型语言模型训练和推理的编解码器

TL;DR本研究解决了在自回归模型中,传统音频编解码器高帧率导致训练和推理缓慢的问题。提出的低帧率语音编解码器(LFSC)采用有限标量量化和对抗训练,能够以1.89 kbps的比特率和21.5帧每秒的速度实现高质量音频压缩。实验表明该编解码器使基于大型语言模型的文本到语音推理速度提高约三倍,同时提高了可懂性,音质与之前的模型相当。