为我演奏一些冰冷的旋律：生成AI音乐中的实际挑战、可解释性和语义差距

Aug, 2024

为我演奏一些冰冷的旋律：生成AI音乐中的实际挑战、可解释性和语义差距

Play Me Something Icy: Practical Challenges, Explainability and the Semantic Gap in Generative AI Music

Jesse Allison, Drew Farrar, Treya Nash, Carlos Román, Morgan Weeks...

TL;DR本研究探讨了文本到音频和文本到音乐生成工具在可解释性AI背景下的本质，特别关注这些工具在描述音乐时所面临的固有语义差距。通过对这些工具在提示创建、控制、可用性和美学效果等方面的评估，本文提出了对生成AI音乐工具改进的建议，并指出需要关注的关键问题。

Abstract

This pictorial aims to critically consider the nature of text-to-audio and text-to-music generative tools in the context of explainable AI. As a group of experimental musicians and researchers, we are enthusiastic about the creative potential of these tools and have sought to understand and evaluate them from perspectives of prompt creation, control, usabili

发现论文，激发创造

利用GPT-3生成音乐解释

本文研究了GPT-3在通过文本解释来表达音乐决策方面的能力，结果表明GPT-3缺乏理解音乐决策的必要智能，解决该问题的主要障碍是缺乏艺术家创作音乐时解释过程的数据资源。

May, 2022

音乐生成的人工智能调查：代理、领域和视角

本文讨论了如何使用AI系统来模拟人类音乐创作的过程，同时分析了用于音乐生成的数据集、模型、用户界面以及未来的应用和研究方向。

Oct, 2022

Generative Disco: 音乐可视化的文本到视频生成

使用生成AI系统Generative Disco，可以根据音乐的节奏生成音频反应的视频，并通过设计模式进行改进，纵向分为转换和保持，研究表明该系统易于使用且高度表现力，适用于专业人士和AI生成内容正在改变创作工作的领域。

Apr, 2023

探索艺术中的可解释人工智能：解释生成音乐中的潜在空间

介绍了一种增加可解释性的音乐生成的潜变量模型，通过潜空间正则化、用户界面反馈循环和音乐属性可视化，实现了模型和生成音乐结果的可解释性和可调试性。

Aug, 2023

AI音乐生成工具与模型调研

我们提供了一篇综合调查报告，介绍了包括研究项目和商业应用在内的人工智能音乐生成工具。通过对音乐生成方法进行分类，我们发现参数化、基于文本和基于视觉的三种方法。调查重点展示了这些工具的多样性和功能特点，适用于普通听众和专业音乐人。每个工具都有自己的优点和限制，因此我们编制了一份综合列表，用于在选择过程中考虑这些因素。此外，我们的调查揭示了人工智能音乐生成的底层机制和挑战。

Aug, 2023

人工智能生成音乐评估方法综述

本研究综合评估主观、客观和综合方法来评估AI生成音乐，并突出了每种方法的优势和劣势，为统一音乐评估领域中的生成AI提供了有价值的参考。

Aug, 2023

探索用于生成音乐可解释人工智能的变分自动编码器结构、配置和数据集

这篇论文通过对不同组合的Variational Auto-Encoder模型、AI模型的潜在空间配置和训练数据集进行系统研究，表明MeasureVAE在音乐生成性能方面具有更好的重构表现，AdversarialVAE在音乐属性独立性方面表现更好。结果展示了MeasureVAE能够通过可解释的音乐控制维度生成跨音乐流派的音乐，并且在生成简单的流行和摇滚音乐时表现最佳。建议在使用MeasureVAE生成跨流派音乐时，4个正则化维度的32或64个潜在空间尺寸是最佳选择。这些结果是关于音乐生成的最详细的现代生成AI模型配置的比较，并可用于选择和配置AI模型、音乐特征和数据集以实现更易理解的音乐生成。

Nov, 2023

MuDiT和MuSiT：描述到歌曲生成中的口语表达对齐

该研究探索生成式人工智能与人类艺术过程相交的关键领域，针对人类为中心的自动歌曲创作中对齐的关系进行研究。通过提出口语描述到歌曲生成的新任务，着重于将生成的内容与口语人类表达相对齐。为了充分满足人类听觉期望并与音乐规范结构对齐的最终目标，该任务旨在弥合口语语言理解和AI模型中的听觉表达之间的鸿沟。通过介绍由专业音乐家和业余爱好者手动注释的Caichong音乐数据集（CaiMD），克服了该领域中数据匮乏的限制。与现有具有专家注释或存在固有偏见的自动生成数据集不同，CaiMD更能满足我们将AI生成的音乐与用户期望结果对齐的目的。此外，提出了一种创新的名为MuDiT/MuSiT的单阶段框架，用于在歌曲创作中实现有效的人机对齐。该框架不仅实现了口语语言与音乐知觉之间的跨模态理解，还确保生成的歌曲与用户期望结果对齐。MuDiT/MuSiT采用一种DiT/SiT模型，用于端到端生成如旋律、和声、节奏、人声和乐器等音乐元素。该方法确保所有生成的音乐元素之间具有和谐的音响连贯性，以更好地与人类听觉期望产生共鸣。

Jul, 2024

文本音乐生成模型中的解释差距

大规模文本到音乐生成模型大大增强了音乐创作能力，但其与人类音乐家有效合作的能力仍然有限。本文提出了一个描述音乐交互过程的框架，包括表达、解释和执行控制。根据这个框架，我们认为现有的文本到音乐模型和音乐家之间的主要差距在于解释阶段，模型缺乏解释音乐家控制的能力。我们还提出了两种策略来解决这个差距，并呼吁音乐信息检索界应对解释挑战，以改善人工智能与音乐家的合作。

Jul, 2024

基础模型时代音乐人工智能的主要研究领域

本研究探讨了在基础模型研究进展背景下，音乐生成AI应用的研究空间。文章提出了生成模型的基础表示和可解释性的问题，评估了音乐数据集的现状及其局限性，并探讨了生成模型的应用与版权保护策略。研究为音乐AI领域的未来研究方向提供了重要见解。

Sep, 2024