Aug, 2024

编解码器的重要性:探讨音频语言模型中编解码器的语义不足

TL;DR本研究解决了当前音频语言模型编解码器在生成音频时无法保持语义完整性的不足,尤其是由于音频编码的语义误解导致内容不准确和词错误率升高的问题。我们提出了一种名为X-Codec的新方法,通过在残差向量量化前引入预训练的语义编码器的语义特征,提升编解码器的语义能力,从而显著降低语音合成任务的词错误率,并拓展到音乐与声音生成等非语音应用。