Sep, 2022

AudioLM:一种语言建模方法用于音频生成

TL;DRAudioLM 是一个高质量的音频生成框架,它通过将输入音频映射为离散令牌序列,并在该表示空间中将音频生成视为一种语言建模任务。我们提出了一种混合标记方案,以实现重建质量和长期结构两个目标,并通过大量的音频波形语料库进行了训练,使其可以生成自然,连贯的音频持续时间。不需要文件、笔录或注释,同时对未见过的讲话者也可以维持其语法和语义合理的音频持续时间。此外,我们还展示了如何通过生成连贯的钢琴音乐持续时间,超越了语音。