基于 RNN 的层次化多模态融合生成 VAE 网络用于多轨符号音乐生成

Sep, 2019

基于 RNN 的层次化多模态融合生成 VAE 网络用于多轨符号音乐生成

MIDI-Sandwich2: RNN-based Hierarchical Multi-modal Fusion Generation VAE networks for multi-track symbolic music generation

PDF

Xia Liang, Junmin Wu, Jing Cao

TL;DR本文提出了一个基于 RNN 的层次化多模态融合生成变分自编码器（VAE）网络 MIDI-Sandwich2，用于多轨符号音乐生成，并使用多模式融合技术实现 RNN-based 多轨符号音乐生成。与 MuseGAN 相比，MIDI-Sandwich2 不仅能生成和谐的多轨音乐，而且生成的质量也接近于艺术水平。

Abstract

Currently, almost all the multi-track music generation models use the Convolutional Neural Network (CNN) to build the generative model, while the Recurrent Neural Network (RNN) based models can not be applied in this task. In view of the above problem, this paper proposes a

rnn-based hierarchical multi-modal fusion variational autoencoder multi-track music generation midi-sandwich2

发现论文，激发创造

多视角 MidiVAE: 融合轨道和小节视图表示用于长久期多轨道符号音乐生成

我们提出了 Multi-view MidiVAE 作为 VAE 方法中有效建模和生成长多轨符号音乐的先驱之一，它利用二维表示 OctupleMIDI 来捕捉音符之间的关系，并减少特征序列的长度。通过采用混合变分编码 - 解码策略将 Track - 和 Bar-view MidiVAE 特征相结合，我们关注乐器特性、和声以及音乐作品的全局和局部信息。对 CocoChorales 数据集进行的客观和主观实验结果表明，与基线相比，Multi-view MidiVAE 在建模长多轨符号音乐方面显示出显著的改进。

Jan, 2024

MIDI-VAE: 模型化音乐动态和器乐与应用于风格迁移

本论文介绍了 MIDI-VAE，一种基于变分自编码器的神经网络模型，能够处理带有多个乐器轨道的复调音乐，并通过结合音符持续时间和速度来建模音乐动态。我们展示了 MIDI-VAE 可以执行符号音乐的样式转换，通过自动更改音高、动态和乐器，将一个音乐作品从古典风格转换为爵士风格。我们通过训练单独的样式验证分类器来评估样式转换的有效性。我们的模型还可以在短音乐片段间插值、产生混音和创建整首歌曲的混合物。插值平滑地改变音高、动态和乐器，以在两个音乐片段之间创建和谐的桥梁。据我们所知，这项工作代表了将神经风格迁移成功应用于完整音乐作品的第一次尝试。

Sep, 2018

MuseGAN: 多轨序列生成对抗网络用于符号音乐生成和伴奏

本文提出了三个基于生成对抗网络的符号化多轨音乐生成模型，并通过客观和主观的评估方法证明了这些模型的有效性。此外，该文还介绍了一些评估生成结果的标准，并通过与人类协作音乐生成的实验进行探讨。

Sep, 2017

MidiNet：一种用于符号域音乐生成的卷积生成对抗网络

本文提出一种基于卷积神经网络的生成式对抗网络 MidiNet，用于在符号域中生成旋律，其能够通过先前的和弦序列或前几小节的旋律生成新的旋律，相比 MelodyRNN 模型表现更为出色。

Mar, 2017

音乐作曲的循环潜变量模型再思考

本文提出了使用卷积变分递归神经网络对音乐进行特征捕捉和创作新音乐序列的模型，通过编码器 - 解码器架构和概率连接捕获音乐的隐藏结构，并使用 Variable Markov Oracle 方法对不同神经网络类型的性能进行比较，结果表明所提出的模型具有更好的统计相似性和更好地保留了原始音乐的风格。

Oct, 2018

一种用于学习音乐长期结构的分层潜变量模型

本文介绍了一种新的变分自编码器模型 MusicVAE，利用层次化解码器结构用于序列数据建模，解决了长程序列结构状态建模的问题，并实现了更好的采样、插值和重构表现。

Mar, 2018

基于图的多音轨音乐生成

该论文在音乐生成的深度学习系统中引入了一种新颖的图表示方法和深度变分自编码器，将音乐的结构和内容分开生成，实现了更具层次结构的人机交互音乐创作方式。

Jul, 2023

无线通信和传感器网络中多模态数据融合的优化

本文提出了一种基于向量量化变分自编码器架构的多模态数据融合新方法，可以在 MNIST-SVHN 数据和 WiFi 光谱数据之间以及 5G 通信场景下实现卓越的重构性能，并通过端到端 CSI 反馈系统来压缩基站（eNodeB）和用户设备（UE）之间传输的数据，为各种类型的输入数据（CSI，光谱图，自然图像等）学习一个具有区分性的压缩特征空间，是针对计算资源有限的应用的一个合适的解决方案。

Feb, 2023

用于组合表示学习的多模态生成模型

该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明，对于图像、标签和文本数据，这些模型在很多领域中达到了最优结果，并且使用 GAN 图像模型和 VAE 语言模型可以得到更好的表现。最后，在配合口语的任务中，该文章发现用于学习图像表达的表示比只使用视觉数据中学习的等效表示更抽象、更组合。

Dec, 2019

多模式深度生成模型的变分混合专家自编码器

本文阐述了成功学习多模态生成模型的四个判定标准，提出了一种混合专家多模态变分自编码器（MMVAE）来学习不同模态的生成模型，并展示了其在具有挑战性的图像 - 语言数据集上实现四个标准的能力，从质量和数量两方面进行了定性和定量。

Nov, 2019