SoundStorm: 高效并行音频生成

May, 2023

SoundStorm: Efficient Parallel Audio Generation

Zalán Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour...

TL;DRSoundStorm is a non-autoregressive audio generation model that uses semantic tokens and bidirectional attention to efficiently generate high-quality audio with consistency, comparable with autoregressive generation while being two orders of magnitude faster.

Abstract

We present soundstorm, a model for efficient, non-autoregressive audio generation. soundstorm receives as input the →

soundstorm audio generation non-autoregressive neural audio codec semantic tokens

发现论文，激发创造

高效并行音频生成使用组掩码语言建模

我们提出了一种快速高质量的并行音频生成编解码语言模型，并采用组遮罩语言模型和组迭代并行解码来实现高效的并行音频生成，通过有效建模组内条件依赖关系，使用跨注意力机制来捕捉提示语音的说话风格并提高计算效率，在基于提示的音频生成中验证实验结果表明，我们提出的模型优于基线。

Jan, 2024

Pheme：高效且会话式的语音生成

在这项研究中，我们介绍了 Pheme 模型系列，它提供了紧凑而高性能的模型，能够并行生成自然对话式语音，并且可以高效地在较小规模的对话数据上进行训练，降低数据需求 10 倍以上，但仍能与自回归 TTS 模型的质量相匹配。我们还展示了通过简单的教师 - 学生蒸馏，在预训练的 Pheme 检查点的基础上，通过仅依靠更大的教师模型生成的合成语音，在单说话者设置上获得声音质量的显著改进。在线提供音频样本和预训练模型。

Jan, 2024

AudioLM：一种语言建模方法用于音频生成

AudioLM 是一个高质量的音频生成框架，它通过将输入音频映射为离散令牌序列，并在该表示空间中将音频生成视为一种语言建模任务。我们提出了一种混合标记方案，以实现重建质量和长期结构两个目标，并通过大量的音频波形语料库进行了训练，使其可以生成自然，连贯的音频持续时间。不需要文件、笔录或注释，同时对未见过的讲话者也可以维持其语法和语义合理的音频持续时间。此外，我们还展示了如何通过生成连贯的钢琴音乐持续时间，超越了语音。

Sep, 2022

快速时序条件下的音频扩散

利用文本提示生成长篇 44.1kHz 立体声音频的计算效率较高，利用条件生成模型、稳定音频技术和潜在变化等方法，可以以较快速度生成出拥有结构和立体声音效的音乐。

Feb, 2024

StemGen: 一种音乐生成模型

使用深度学习技术的音乐音频的端到端生成最近有很大活动。本文提出了一种替代范式，用于生成能够听取和响应音乐上下文的音乐生成模型。使用非自回归、基于 Transformer 的模型架构构建了这样一个模型，并提出了一系列新颖的架构和采样改进方法。我们在开源和专有数据集上训练了这个描述的架构。我们使用标准质量度量和基于音乐信息检索描述符的新方法来评估生成的模型。所得到的模型在音频质量上达到了最先进的基于文本的模型水平，并且在音乐连贯性方面表现出很强的上下文关联性。

Dec, 2023

高质量流媒体语音合成低，句子长度无关的延迟

本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统，使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成，实验结果显示，该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟，并且能够生成几乎自然的高质量语音。

Nov, 2021

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

生成式口语对话语言建模

本文介绍了 dGSLM，这是第一个无需文字或标签即能生成自然对话语音的 “textless” 模型，使用双塔变压器体系结构与跨注意力机制，经过 2000 小时的对话录音训练，能同时合成两个渠道的人类语音和语音附属特征，并展示其相对于基于文本的级联模型表现出更自然和流畅的交替发言。

Mar, 2022

音频全能化：使用 WavLM 预训练模型的语音驱动手势合成

该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”，通过原始语音音频产生个体化和风格化的全身共说手势，消除了复杂的多模态处理和手动注释的需求，实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。

Aug, 2023

声音的力量：稳定扩散下的音频反应视频生成

通过使用包含变化的时间语义和大小的音频输入的 The Power of Sound (TPoS) 模型结合文本语义信息和经过预训练的音频编码器的顺序音频嵌入，TPoS 方法能够生成对音频有反应的视频内容，并在各个任务中展示了其有效性，与当前音频到视频生成领域的最新技术进行了比较。

Sep, 2023