探索生成式人工智能对音乐的解读

Jul, 2023

探索生成式人工智能对音乐的解读

Exploring how a Generative AI interprets music

Gabriela Barenboim, Luigi Del Debbio, Johannes Hirn, Veronica Sanz

TL;DR我们使用 Google 的 MusicVAE，一个具有 512 维潜在空间的变分自动编码器来表示几小节的音乐，并根据描述音乐的相关性组织潜在维度。我们发现，平均而言，大多数潜在神经元在输入真实音乐曲目时保持沉默：我们称这些为 “噪声” 神经元。剩下的几十个激活的潜在神经元被称为 “音乐” 神经元。我们探究哪些神经元携带音乐信息以及它们编码的音乐信息种类，即是否可以识别为音高、节奏或旋律。我们发现大部分关于音高和节奏的信息都编码在最开始的几个音乐神经元中：神经网络因此构建了一些非线性编码许多用于描述音高和节奏的人工定义变量的变量。旋律的概念似乎仅在较长的音乐序列中出现独立的神经元中。

Abstract

We use Google's musicvae, a Variational Auto-Encoder with a 512-dimensional latent space to represent a few bars of music, and organize the latent dimensions according to their relevance in describing music. We f

musicvae latent space neural network pitch rhythm

发现论文，激发创造

利用变分自动编码器探索调性音乐的潜在空间

我们评估了在 371 首巴赫合唱曲中对音乐认知的音乐语料库进行训练的变分自编码器（Variational Autoencoders）对于代表五度音程和音乐认知中的每个关键组件音高的等级关系定义潜在空间的程度，结果表明，音高离散傅里叶变换（Pitch DFT）的潜空间最好地与认知空间对齐，并提供一个包含模糊聚类的共同音空间，在其中，关键字内重叠的对象强加了一种良好定义的结构重要性或稳定性的顺序 - 即音程层次结构。不同关键的音调层次结构可以用来测量关键的距离及其音符和和弦在多个层次（例如，笔记和和弦）上的关系。

Nov, 2023

音乐作曲的循环潜变量模型再思考

本文提出了使用卷积变分递归神经网络对音乐进行特征捕捉和创作新音乐序列的模型，通过编码器 - 解码器架构和概率连接捕获音乐的隐藏结构，并使用 Variable Markov Oracle 方法对不同神经网络类型的性能进行比较，结果表明所提出的模型具有更好的统计相似性和更好地保留了原始音乐的风格。

Oct, 2018

探索用于生成音乐可解释人工智能的变分自动编码器结构、配置和数据集

这篇论文通过对不同组合的 Variational Auto-Encoder 模型、AI 模型的潜在空间配置和训练数据集进行系统研究，表明 MeasureVAE 在音乐生成性能方面具有更好的重构表现，AdversarialVAE 在音乐属性独立性方面表现更好。结果展示了 MeasureVAE 能够通过可解释的音乐控制维度生成跨音乐流派的音乐，并且在生成简单的流行和摇滚音乐时表现最佳。建议在使用 MeasureVAE 生成跨流派音乐时，4 个正则化维度的 32 或 64 个潜在空间尺寸是最佳选择。这些结果是关于音乐生成的最详细的现代生成 AI 模型配置的比较，并可用于选择和配置 AI 模型、音乐特征和数据集以实现更易理解的音乐生成。

Nov, 2023

一种用于学习音乐长期结构的分层潜变量模型

本文介绍了一种新的变分自编码器模型 MusicVAE，利用层次化解码器结构用于序列数据建模，解决了长程序列结构状态建模的问题，并实现了更好的采样、插值和重构表现。

Mar, 2018

使用深度学习架构进行潜在音频空间探索的声音设计策略

本研究探讨了 Variational Autoencoders（VAEs）在将原始音频数据中生成潜在音频空间时的应用，提出了三种探索潜在音频空间和音色的策略以应用于声音设计，在为声音和音乐实践中利用潜在音频空间的艺术方法和策略方面开展了初步探索。

May, 2023

探索艺术中的可解释人工智能：解释生成音乐中的潜在空间

介绍了一种增加可解释性的音乐生成的潜变量模型，通过潜空间正则化、用户界面反馈循环和音乐属性可视化，实现了模型和生成音乐结果的可解释性和可调试性。

Aug, 2023

将视觉艺术转化为音乐

本研究提出的 “感觉变分自编码器”(SynVAE)，在没有配对数据集的情况下学习视听感性模态之间的一致映射，并对 MNIST 和 Behance 艺术媒体数据集进行了数量和质量方面的评估，结果表明 SynVAE 在保持跨模态潜空间一致性的同时，能够保留足够的信息内容，并在定性评估试验中，人工评估者能够将生成的音乐样本与相应的图片进行匹配，准确率高达 73%。

Sep, 2019

预测编码模型中的音乐感知与预测关系

通过基于预测编码的神经网络模型研究人类音乐感知，模型经过大量 Classic 音乐和流行旋律训练后，发现预测误差依赖于音符，音高间隔和时间上下文等信息，提示可用预测编码神经网络来表征影响音乐感知的特征和主题。

Oct, 2022

算法作曲中的自传式探索

该研究使用 MeasureVAE 可解释的潜在维度的生成音乐 XAI 模型在爱尔兰民间音乐的训练数据集上进行了自传体研究，结果显示探索性的音乐创作流程突显了训练数据集的音乐特征而非生成模型本身的特征，XAI 模型在迭代工作流中的应用显示出其成为比其最初设计用途更丰富和复杂工作流的潜力。

Aug, 2023

通过潜在表示解缠深度音乐类比

本文提出了一种显式约束的变分自编码器 (EC2-VAE)，用于解决不同音乐片段之间的 “类比” 生成问题，该模型可以将潜在的高层次表示转移到其他音乐片段上，并成功进行了客观和主观评价。

Jun, 2019