探索用于生成音乐可解释人工智能的变分自动编码器结构、配置和数据集

Nov, 2023

探索用于生成音乐可解释人工智能的变分自动编码器结构、配置和数据集

Exploring Variational Auto-Encoder Architectures, Configurations, and Datasets for Generative Music Explainable AI

Nick Bryan-Kinns, Bingyuan Zhang, Songyan Zhao, Berker Banar

TL;DR这篇论文通过对不同组合的 Variational Auto-Encoder 模型、AI 模型的潜在空间配置和训练数据集进行系统研究，表明 MeasureVAE 在音乐生成性能方面具有更好的重构表现，AdversarialVAE 在音乐属性独立性方面表现更好。结果展示了 MeasureVAE 能够通过可解释的音乐控制维度生成跨音乐流派的音乐，并且在生成简单的流行和摇滚音乐时表现最佳。建议在使用 MeasureVAE 生成跨流派音乐时，4 个正则化维度的 32 或 64 个潜在空间尺寸是最佳选择。这些结果是关于音乐生成的最详细的现代生成 AI 模型配置的比较，并可用于选择和配置 AI 模型、音乐特征和数据集以实现更易理解的音乐生成。

Abstract

generative ai models for music and the arts in general are increasingly complex and hard to understand. The field of explainable ai (XAI) seeks to make complex and opaque AI models such as neural networks more un

explainable ai generative ai models variational auto-encoder models musical attributes music generation

发现论文，激发创造

算法作曲中的自传式探索

该研究使用 MeasureVAE 可解释的潜在维度的生成音乐 XAI 模型在爱尔兰民间音乐的训练数据集上进行了自传体研究，结果显示探索性的音乐创作流程突显了训练数据集的音乐特征而非生成模型本身的特征，XAI 模型在迭代工作流中的应用显示出其成为比其最初设计用途更丰富和复杂工作流的潜力。

Aug, 2023

探索艺术中的可解释人工智能：解释生成音乐中的潜在空间

介绍了一种增加可解释性的音乐生成的潜变量模型，通过潜空间正则化、用户界面反馈循环和音乐属性可视化，实现了模型和生成音乐结果的可解释性和可调试性。

Aug, 2023

抽样 - 变分自编码器 - 集成：追求可解释人工智能的探索

通过采样 - 变分自动编码器 (VAE) - 集成异常检测 (SVEAD) 的新框架，本文在可解释人工智能 (XAI) 的话题上做了实证评估，发现将集成叠加、VAE 和 SHAP 结合在一起不仅可以提高模型性能，而且能够提供一个易于解释的框架。

Sep, 2023

探索生成式人工智能对音乐的解读

我们使用 Google 的 MusicVAE，一个具有 512 维潜在空间的变分自动编码器来表示几小节的音乐，并根据描述音乐的相关性组织潜在维度。我们发现，平均而言，大多数潜在神经元在输入真实音乐曲目时保持沉默：我们称这些为 “噪声” 神经元。剩下的几十个激活的潜在神经元被称为 “音乐” 神经元。我们探究哪些神经元携带音乐信息以及它们编码的音乐信息种类，即是否可以识别为音高、节奏或旋律。我们发现大部分关于音高和节奏的信息都编码在最开始的几个音乐神经元中：神经网络因此构建了一些非线性编码许多用于描述音高和节奏的人工定义变量的变量。旋律的概念似乎仅在较长的音乐序列中出现独立的神经元中。

Jul, 2023

利用变分自动编码器探索调性音乐的潜在空间

我们评估了在 371 首巴赫合唱曲中对音乐认知的音乐语料库进行训练的变分自编码器（Variational Autoencoders）对于代表五度音程和音乐认知中的每个关键组件音高的等级关系定义潜在空间的程度，结果表明，音高离散傅里叶变换（Pitch DFT）的潜空间最好地与认知空间对齐，并提供一个包含模糊聚类的共同音空间，在其中，关键字内重叠的对象强加了一种良好定义的结构重要性或稳定性的顺序 - 即音程层次结构。不同关键的音调层次结构可以用来测量关键的距离及其音符和和弦在多个层次（例如，笔记和和弦）上的关系。

Nov, 2023

使用深度学习架构进行潜在音频空间探索的声音设计策略

本研究探讨了 Variational Autoencoders（VAEs）在将原始音频数据中生成潜在音频空间时的应用，提出了三种探索潜在音频空间和音色的策略以应用于声音设计，在为声音和音乐实践中利用潜在音频空间的艺术方法和策略方面开展了初步探索。

May, 2023

向高中学生介绍变分自编码器

我们基于智能生成模型，通过设计基于网络的游戏和使用意象隐喻，向高中生介绍 Variational Autoencoders，帮助他们更好地理解 AI，创意艺术和哲学等学科，同时培养相关技能，这一方法在 22 名学生中得到实践证明。

Nov, 2021

将视觉艺术转化为音乐

本研究提出的 “感觉变分自编码器”(SynVAE)，在没有配对数据集的情况下学习视听感性模态之间的一致映射，并对 MNIST 和 Behance 艺术媒体数据集进行了数量和质量方面的评估，结果表明 SynVAE 在保持跨模态潜空间一致性的同时，能够保留足够的信息内容，并在定性评估试验中，人工评估者能够将生成的音乐样本与相应的图片进行匹配，准确率高达 73%。

Sep, 2019

一种用于学习音乐长期结构的分层潜变量模型

本文介绍了一种新的变分自编码器模型 MusicVAE，利用层次化解码器结构用于序列数据建模，解决了长程序列结构状态建模的问题，并实现了更好的采样、插值和重构表现。

Mar, 2018

多模式深度生成模型的变分混合专家自编码器

本文阐述了成功学习多模态生成模型的四个判定标准，提出了一种混合专家多模态变分自编码器（MMVAE）来学习不同模态的生成模型，并展示了其在具有挑战性的图像 - 语言数据集上实现四个标准的能力，从质量和数量两方面进行了定性和定量。

Nov, 2019