生成音色空间:利用感知度量规则化变分自编码器
我们评估了在 371 首巴赫合唱曲中对音乐认知的音乐语料库进行训练的变分自编码器(Variational Autoencoders)对于代表五度音程和音乐认知中的每个关键组件音高的等级关系定义潜在空间的程度,结果表明,音高离散傅里叶变换(Pitch DFT)的潜空间最好地与认知空间对齐,并提供一个包含模糊聚类的共同音空间,在其中,关键字内重叠的对象强加了一种良好定义的结构重要性或稳定性的顺序 - 即音程层次结构。不同关键的音调层次结构可以用来测量关键的距离及其音符和和弦在多个层次(例如,笔记和和弦)上的关系。
Nov, 2023
本研究探讨了 Variational Autoencoders(VAEs)在将原始音频数据中生成潜在音频空间时的应用,提出了三种探索潜在音频空间和音色的策略以应用于声音设计,在为声音和音乐实践中利用潜在音频空间的艺术方法和策略方面开展了初步探索。
May, 2023
本文介绍了使用 Modulated Variational auto-Encoders (MoVE) 在音乐中实现 timbre transfer 的方法,通过使用 Feature-wise Linear Modulation (FiLM) 和 Maximun Mean Discrepancy 减少对抗网络的需要,最终实现了 multi-domain transfer。
Sep, 2018
该论文介绍了 GLSR-VAE,一种 Geodesic Latent Space Regularization 方法,该方法可以在生成数据时对数据进行微调,并演示了在一个单声部音乐生成任务中生成音乐变化的有效性。
Jul, 2017
提出了一种变分空间转换自编码器(VTAE),通过在 Riemann 流形上最小化测地线来改善表征学习,并提高计算机视觉任务的预测准确性和适用性,包括图像插值和重构。
Apr, 2023
本文介绍了一种基于变分自编码器和归一化流的新型音频合成器控制形式,以寻找音频合成器的组织潜在声音空间并构建可逆映射到其参数空间的方法,能够同时解决自动参数推断、宏控制学习和基于音频预设的探索问题。实验证明其在参数推断和音频重建方面的优越性,同时还能学习到合成器的语义控制,具有广泛的创意应用价值。
Jul, 2019
这篇文章介绍了一种对变分自动编码器 (VAEs) 进行简单扩展的方法,通过渐进性减小潜空间大小来自动确定训练过程中的最佳潜空间大小,并将该方法与传统的超参数网格搜索进行比较,结果表明其速度显著更快,且在四个图像数据集上实现了最佳的维度。此外,还证明了我们方法的最终性能与从头开始训练的最佳潜空间大小相当,因此可能作为一种便利的替代方法。
Dec, 2023
本文对可变自编码器 (VAE) 拓展至处理序列数据的方法进行了综述,提出并讨论了动态变分自编码器 (DVAEs) 这一类模型,详细介绍了七种 DVAE 模型,并通过语音分析 - 重构任务的实验基准进行了验证,最后探讨了 DVAE 模型的重要问题和未来的研究方向。
Aug, 2020
本文介绍了一种名为感知生成自编码器的新型生成模型。该模型通过将生成的和目标分布映射到一个潜空间中,并用具有理论依据的数据和潜空间重构损失同时在数据空间和隐空间中强制同步,从而能够在无限制的神经网络体系结构和任意数量的潜在维度上推广可逆生成模型的思想,并且在样本质量方面显著优于传统自编码器和其他基于自编码器的生成模型。
Jun, 2019
本文利用 Poincaré 球模型的超几何结构作为潜变量空间,研究了 VAE 在这个空间的运用,该方法在嵌套数据结构下表现出色,并展现了超几何结构对于 VAE 的优越性。
Jan, 2019