Jul, 2023

探索生成式人工智能对音乐的解读

TL;DR我们使用 Google 的 MusicVAE,一个具有 512 维潜在空间的变分自动编码器来表示几小节的音乐,并根据描述音乐的相关性组织潜在维度。我们发现,平均而言,大多数潜在神经元在输入真实音乐曲目时保持沉默:我们称这些为 “噪声” 神经元。剩下的几十个激活的潜在神经元被称为 “音乐” 神经元。我们探究哪些神经元携带音乐信息以及它们编码的音乐信息种类,即是否可以识别为音高、节奏或旋律。我们发现大部分关于音高和节奏的信息都编码在最开始的几个音乐神经元中:神经网络因此构建了一些非线性编码许多用于描述音高和节奏的人工定义变量的变量。旋律的概念似乎仅在较长的音乐序列中出现独立的神经元中。