一种促进独立性的损失函数用于语言模型生成音乐

ICMLJun, 2024

一种促进独立性的损失函数用于语言模型生成音乐

An Independence-promoting Loss for Music Generation with Language Models

Jean-Marie Lemercier, Simon Rouard, Jade Copet, Yossi Adi, Alexandre Déffosez

TL;DR介绍了一种应用于音乐生成的语言模型的自动编码器作为标记器的独立性促进损失，通过减少码书之间的统计相关性，提高了生成音乐的质量和速度。

Abstract

music generation schemes using language modeling rely on a vocabulary of audio tokens, generally provided as codes in a discrete latent space learnt by an →

music generation language modeling auto-encoder codebooks independence-promoting loss

发现论文，激发创造

利用互信息学习说话者表示

利用互信息作为无监督学习中一种重要的度量方式，设计一种基于编码器 — 判别器结构的音频信号 SincNet 编码器，通过最大化采样自同一句子块的编码表示之间的互信息来学习音频信号中说话者的特征表达，可成功地实现有效的说话者识别和验证任务。

Dec, 2018

用潜在量化实现解缠

通过强化模型正则化并将潜空间量化为可学习的离散代码，本文提出一种面向组成性编码和解码的概念偏置，从而在许多基准数据集上显著改善了学习表示的模块化和明确性。

May, 2023

基于编码的音频语言建模为音乐信息检索学习有用表征

采用编码音频预训练的语言模型，可以为音乐信息检索任务提供更有用的特征，相较于以标签为预训练的传统模型，使用编码音频预训练模型可以提供更强的检索性能，并能够弥补传统方法中的盲点。

Jul, 2021

信息熵损失对生成式语言模型学习困难的缓解

通过引入信息熵损失函数来解决文本语料中常见和难以学习的标记的不平衡性，改进了生成式语言模型在下游任务中的性能表现。

Oct, 2023

辅助导向自回归变分自动编码器

本文提出了一种训练程序，它基于辅助损失函数来控制潜变量所捕获的信息以及留给自回归解码器的信息，该方法可以实现任意强大的自回归解码器，达到具有潜变量的模型中最先进的定量性能，并生成定性令人信服的样本。

Nov, 2017

简单且可控的音乐生成

本文介绍了 MusicGen 这个单一语言模型，能够生成高质量的音乐样本，实现对文本描述或旋律特征的有条件创作，并经过广泛的实证评估，表明其在标准的文本到音乐基准上优于其他模型。

Jun, 2023

利用 GANs 协调最大似然函数进行多模态有条件生成

提出一种使用替代重构损失（moment reconstruction losses）的训练方案的条件图像生成方法，通过在 Cityscapes 和 CelebA 数据集上进行实验验证，证明该方法在保留或提高生成样本的视觉保真度的同时，实现了输出样本的多样性。

Feb, 2019

使用扩散模型生成符号音乐

本文提出了一种基于预训练变分自编码器的离散领域参数化的扩散模型训练技术，用于离散和连续领域的生成导致更优结果，并在应用于符号音乐领域时表现出很强的无条件生成和条件填充结果，相比基于自回归语言模型的连续嵌入操作更具可行性。

Mar, 2021

用于多对多音色转换的调制变分自编码器

本文介绍了使用 Modulated Variational auto-Encoders (MoVE) 在音乐中实现 timbre transfer 的方法，通过使用 Feature-wise Linear Modulation (FiLM) 和 Maximun Mean Discrepancy 减少对抗网络的需要，最终实现了 multi-domain transfer。

Sep, 2018

多语言翻译中基于人工语言的知识共享学习

本篇论文研究了多语言神经翻译的基石，即跨语言共享表示；论文通过将编码器输出离散化为一系列条目的方式，提高了模型的鲁棒性和泛化能力，并尝试使用一种人造语言来分析模型的行为，发现类似的桥梁语言能够增加知识共享。

Nov, 2022