基于 RNN 的层次化多模态融合生成 VAE 网络用于多轨符号音乐生成
我们提出了 Multi-view MidiVAE 作为 VAE 方法中有效建模和生成长多轨符号音乐的先驱之一,它利用二维表示 OctupleMIDI 来捕捉音符之间的关系,并减少特征序列的长度。通过采用混合变分编码 - 解码策略将 Track - 和 Bar-view MidiVAE 特征相结合,我们关注乐器特性、和声以及音乐作品的全局和局部信息。对 CocoChorales 数据集进行的客观和主观实验结果表明,与基线相比,Multi-view MidiVAE 在建模长多轨符号音乐方面显示出显著的改进。
Jan, 2024
本论文介绍了 MIDI-VAE,一种基于变分自编码器的神经网络模型,能够处理带有多个乐器轨道的复调音乐,并通过结合音符持续时间和速度来建模音乐动态。我们展示了 MIDI-VAE 可以执行符号音乐的样式转换,通过自动更改音高、动态和乐器,将一个音乐作品从古典风格转换为爵士风格。我们通过训练单独的样式验证分类器来评估样式转换的有效性。我们的模型还可以在短音乐片段间插值、产生混音和创建整首歌曲的混合物。插值平滑地改变音高、动态和乐器,以在两个音乐片段之间创建和谐的桥梁。据我们所知,这项工作代表了将神经风格迁移成功应用于完整音乐作品的第一次尝试。
Sep, 2018
本文提出了三个基于生成对抗网络的符号化多轨音乐生成模型,并通过客观和主观的评估方法证明了这些模型的有效性。此外,该文还介绍了一些评估生成结果的标准,并通过与人类协作音乐生成的实验进行探讨。
Sep, 2017
本文提出一种基于卷积神经网络的生成式对抗网络 MidiNet,用于在符号域中生成旋律,其能够通过先前的和弦序列或前几小节的旋律生成新的旋律,相比 MelodyRNN 模型表现更为出色。
Mar, 2017
本文提出了使用卷积变分递归神经网络对音乐进行特征捕捉和创作新音乐序列的模型,通过编码器 - 解码器架构和概率连接捕获音乐的隐藏结构,并使用 Variable Markov Oracle 方法对不同神经网络类型的性能进行比较,结果表明所提出的模型具有更好的统计相似性和更好地保留了原始音乐的风格。
Oct, 2018
本文介绍了一种新的变分自编码器模型 MusicVAE,利用层次化解码器结构用于序列数据建模,解决了长程序列结构状态建模的问题,并实现了更好的采样、插值和重构表现。
Mar, 2018
本文提出了一种基于向量量化变分自编码器架构的多模态数据融合新方法,可以在 MNIST-SVHN 数据和 WiFi 光谱数据之间以及 5G 通信场景下实现卓越的重构性能,并通过端到端 CSI 反馈系统来压缩基站(eNodeB)和用户设备(UE)之间传输的数据,为各种类型的输入数据(CSI,光谱图,自然图像等)学习一个具有区分性的压缩特征空间,是针对计算资源有限的应用的一个合适的解决方案。
Feb, 2023
该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明,对于图像、标签和文本数据,这些模型在很多领域中达到了最优结果,并且使用 GAN 图像模型和 VAE 语言模型可以得到更好的表现。最后,在配合口语的任务中,该文章发现用于学习图像表达的表示比只使用视觉数据中学习的等效表示更抽象、更组合。
Dec, 2019
本文阐述了成功学习多模态生成模型的四个判定标准,提出了一种混合专家多模态变分自编码器(MMVAE)来学习不同模态的生成模型,并展示了其在具有挑战性的图像 - 语言数据集上实现四个标准的能力,从质量和数量两方面进行了定性和定量。
Nov, 2019