使用单一非自回归变换器生成掩盖音频

Jan, 2024

使用单一非自回归变换器生成掩盖音频

Masked Audio Generation using a Single Non-Autoregressive Transformer

Alon Ziv, Itai Gat, Gael Le Lan, Tal Remez, Felix Kreuk...

TL;DR我们介绍了 MAGNeT，一种遮蔽生成序列建模方法，直接操作多个音频令牌流。MAGNeT 由一个单阶段的非自回归变换器组成，在训练过程中，我们预测来自掩码调度器的遮蔽令牌跨度，而在推断过程中，我们逐步构建输出序列使用多个解码步骤。为了进一步提高生成音频的质量，我们引入了一种新的再评分方法，其中我们利用外部预训练模型对 MAGNeT 的预测进行再评分和排序，然后用于后续的解码步骤。最后，我们探索了 MAGNeT 的混合版本，其中我们在自回归方式下生成前几秒，而其余序列则并行解码。我们展示了 MAGNeT 在文本转音乐和文本转音频生成任务中的效率，并进行了大量的实证评估，考虑客观指标和人类研究。所提出的方法与评估基线相当，而且速度显著更快（比自回归基线快 7 倍）。通过消融研究和分析，我们阐明了构成 MAGNeT 的每个组成部分的重要性，并指出了自回归和非自回归建模之间的权衡，考虑到延迟、吞吐量和生成质量。我们的演示页面上提供了样本，位于此 https URL。

Abstract

We introduce magnet, a masked generative sequence modeling method that operates directly over several streams of audio tokens. Unlike prior work,

magnet masked generative sequence modeling non-autoregressive transformer text-to-music text-to-audio generation

发现论文，激发创造

MAGVLT: 遮盖式生成式视觉与语言转换器

本篇论文提出了一种基于变压器的联合视觉与语言模型，名为 MAGVLT，它可以生成图像和文本序列，并且相对于以前的模型具有双向上下文编码和更快的并行词汇预测等优点。经过实验证明，MAGVLT 可以在零样本情况下使用较小的模型（少于 500M 参数）在 MS-COCO 数据集上取得很好的成果。

Mar, 2023

MAGVIT: 掩码生成式视频变换器

本研究提出了 MAgVIT，通过 3D 分词器对视频进行量化并通过视频掩码令牌建模进行多任务学习，展示了 MAgVIT 在视频生成任务中的质量、效率和灵活性，且支持多种生成任务。

Dec, 2022

通过混合训练来提高非自回归生成

本文介绍了一种基于预训练 transformer 模型的非自回归生成模型，并提出了一种名为 MIST 的迭代训练方法，无需在推断阶段牺牲推断速度即可获得更好的性能，在问题生成、摘要和释义生成等三个方面取得了最新的最好效果。

Oct, 2021

听写填空：用于语音识别的非自回归变压器

本研究提出了两种不自回归变换器结构以解决自动语音识别中的推理计算成本问题，在训练期间，输入的标记被特殊的掩码标记随机替换，网络需要考虑未被掩盖的上下文和语音输入以预测与那些掩码标记相对应的标记。结果表明，该模型能够支持不同的解码策略，特别是在 Aishell 上，该方法的性能超过了 Kaldi ASR 系统，与最先进的自回归变换器的性能相当，而且速度提高了 7 倍。

Nov, 2019

预训练语言模型的非自回归式文本生成

本文提出了一种基于 BERT 的非自回归文本生成模型，通过引入新的解码策略（ratio-first）以及机制来解决 NAG 模型中的两个问题，并在三个文本生成任务上进行全面评估，证明该模型在速度和性能上均优于现有的非自回归基线模型，在许多强自回归模型上也取得了有竞争力的性能.

Feb, 2021

掩码非自回归图像字幕生成

本文提出了一种基于遮码机制的非自回归解码模型，用于生成图像标题。实验结果表明，该模型可以更有效地保留语义内容并生成更多样化的标题。

Jun, 2019

StemGen: 一种音乐生成模型

使用深度学习技术的音乐音频的端到端生成最近有很大活动。本文提出了一种替代范式，用于生成能够听取和响应音乐上下文的音乐生成模型。使用非自回归、基于 Transformer 的模型架构构建了这样一个模型，并提出了一系列新颖的架构和采样改进方法。我们在开源和专有数据集上训练了这个描述的架构。我们使用标准质量度量和基于音乐信息检索描述符的新方法来评估生成的模型。所得到的模型在音频质量上达到了最先进的基于文本的模型水平，并且在音乐连贯性方面表现出很强的上下文关联性。

Dec, 2023

MaskINT：通过插值非自回归蒙版变换的视频编辑

这项研究通过在文本为基础的视频编辑过程中分为两个阶段，利用现有的文本到图像扩散模型同时编辑一些关键帧，并引入了一种称为 MaskINT 的高效模型，该模型建立在非自回归的掩膜式生成变压器上，在关键帧之间进行帧插值，从中间帧提供的结构指导中受益。我们进行了一系列实验证明了 MaskINT 相对于其他基于扩散模型的方法的有效性和高效性。该研究为基于文本的视频编辑提供了实用的解决方案，并展示了非自回归的掩膜式生成变压器在该领域中的潜力。

Dec, 2023

掩蔽自动编解码器是一种有效的多任务视觉通才

通过引入双向注意力机制、并行解码框架和掩码序列建模方法，设计了一种名为 MAD 的多任务视觉通用模型，用于统一各种视觉任务，实验证明 MAD 在性能和推理效率方面优于自回归模型，并在与任务专用模型相比获得竞争力的准确性。

Mar, 2024

VampNet: 通过掩码声学令牌建模进行音乐生成

VampNet 是一种掩码声学令牌建模方法，可用于音乐合成、压缩、修补和变体，通过在推断过程中应用各种遮罩方法来从模型中采样连贯的音乐。

Jul, 2023