一种促进独立性的损失函数用于语言模型生成音乐
利用互信息作为无监督学习中一种重要的度量方式,设计一种基于编码器 — 判别器结构的音频信号 SincNet 编码器,通过最大化采样自同一句子块的编码表示之间的互信息来学习音频信号中说话者的特征表达,可成功地实现有效的说话者识别和验证任务。
Dec, 2018
采用编码音频预训练的语言模型,可以为音乐信息检索任务提供更有用的特征,相较于以标签为预训练的传统模型,使用编码音频预训练模型可以提供更强的检索性能,并能够弥补传统方法中的盲点。
Jul, 2021
本文提出了一种训练程序,它基于辅助损失函数来控制潜变量所捕获的信息以及留给自回归解码器的信息,该方法可以实现任意强大的自回归解码器,达到具有潜变量的模型中最先进的定量性能,并生成定性令人信服的样本。
Nov, 2017
本文介绍了 MusicGen 这个单一语言模型,能够生成高质量的音乐样本,实现对文本描述或旋律特征的有条件创作,并经过广泛的实证评估,表明其在标准的文本到音乐基准上优于其他模型。
Jun, 2023
提出一种使用替代重构损失(moment reconstruction losses)的训练方案的条件图像生成方法,通过在 Cityscapes 和 CelebA 数据集上进行实验验证,证明该方法在保留或提高生成样本的视觉保真度的同时,实现了输出样本的多样性。
Feb, 2019
本文提出了一种基于预训练变分自编码器的离散领域参数化的扩散模型训练技术,用于离散和连续领域的生成导致更优结果,并在应用于符号音乐领域时表现出很强的无条件生成和条件填充结果,相比基于自回归语言模型的连续嵌入操作更具可行性。
Mar, 2021
本文介绍了使用 Modulated Variational auto-Encoders (MoVE) 在音乐中实现 timbre transfer 的方法,通过使用 Feature-wise Linear Modulation (FiLM) 和 Maximun Mean Discrepancy 减少对抗网络的需要,最终实现了 multi-domain transfer。
Sep, 2018
本篇论文研究了多语言神经翻译的基石,即跨语言共享表示;论文通过将编码器输出离散化为一系列条目的方式,提高了模型的鲁棒性和泛化能力,并尝试使用一种人造语言来分析模型的行为,发现类似的桥梁语言能够增加知识共享。
Nov, 2022