高效并行音频生成使用组掩码语言建模

Jan, 2024

高效并行音频生成使用组掩码语言建模

Efficient Parallel Audio Generation using Group Masked Language Modeling

Myeonghun Jeong, Minchan Kim, Joun Yeop Lee, Nam Soo Kim

TL;DR我们提出了一种快速高质量的并行音频生成编解码语言模型，并采用组遮罩语言模型和组迭代并行解码来实现高效的并行音频生成，通过有效建模组内条件依赖关系，使用跨注意力机制来捕捉提示语音的说话风格并提高计算效率，在基于提示的音频生成中验证实验结果表明，我们提出的模型优于基线。

Abstract

We present a fast and high-quality codec language model for parallel audio generation. While SoundStorm, a state-of-the-art parallel audio generation model, accelerates inference speed compared to autoregressive

parallel audio generation codec language model group-masked language modeling group iterative parallel decoding prompt-based audio generation

发现论文，激发创造

SoundStorm: 高效并行音频生成

SoundStorm is a non-autoregressive audio generation model that uses semantic tokens and bidirectional attention to efficiently generate high-quality audio with consistency, comparable with autoregressive generation while being two orders of magnitude faster.

May, 2023

一种具有概率掩码的语言模型，能够按任意字序进行自回归生成

本文提出了一种基于掩模模型的概率掩模方案（PMLM），它支持按任意顺序生成文本，并在下游自然语言理解任务上超越了 BERT。

Apr, 2020

AudioLM：一种语言建模方法用于音频生成

AudioLM 是一个高质量的音频生成框架，它通过将输入音频映射为离散令牌序列，并在该表示空间中将音频生成视为一种语言建模任务。我们提出了一种混合标记方案，以实现重建质量和长期结构两个目标，并通过大量的音频波形语料库进行了训练，使其可以生成自然，连贯的音频持续时间。不需要文件、笔录或注释，同时对未见过的讲话者也可以维持其语法和语义合理的音频持续时间。此外，我们还展示了如何通过生成连贯的钢琴音乐持续时间，超越了语音。

Sep, 2022

生成式口语对话语言建模

本文介绍了 dGSLM，这是第一个无需文字或标签即能生成自然对话语音的 “textless” 模型，使用双塔变压器体系结构与跨注意力机制，经过 2000 小时的对话录音训练，能同时合成两个渠道的人类语音和语音附属特征，并展示其相对于基于文本的级联模型表现出更自然和流畅的交替发言。

Mar, 2022

PSLM: 并行生成用于低延迟口语对话系统的文本和语音的 LLM

多模式语言模型通过扩展输入和输出序列，支持并行生成文本和语音，从而改善响应生成的延迟，并保持响应内容的质量。在口语问答任务上的实验证明，该方法进一步通过生成多个语音序列来减少延迟。

Jun, 2024

APAR: LLMs 可以进行自动并行自回归解码

通过并行自回归生成的方法以及与推理解码相结合，可以显著提高大型语言模型的生成速度和性能。

Jan, 2024

高效译码的投机流水线执行

通过使用预测值，基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌，从而提高推理效率，减少延迟，并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。

Oct, 2023

AUTOPARLLM: 使用大型语言模型的 GNN 引导自动代码并行化

AUTOPARLLM 是一个用于自动发现并生成顺序程序的并行版本的框架，通过使用异构图神经网络（GNN）进行并行性发现和并行模式检测，并结合 LLM 代码生成器，能够有效改善并行代码生成任务中的多个代码生成指标，并且通过引入 OMPScore 衡量方法，提供了一种优于现有指标的评估生成代码质量的方法。

Oct, 2023

基于噪声并行的条件循环语言模型近似解码

本文主要探究了条件循环语言建模方面的一些进展和应用，提出了一个新的非常并行化的解码策略，并在诸如注意力机制和深度神经网络的领域进行了广泛的评估。

May, 2016

使用指令调整的 LLM 和潜在扩散模型生成文本到语音

本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器，通过使用基于声音压力级的声音混合来进行训练集增强，从而取得了比 AudioLDM 更好的结果，成为了生成文字描述音频的任务中的最佳选择。

Apr, 2023