为我演奏一些冰冷的旋律:生成AI音乐中的实际挑战、可解释性和语义差距
本文研究了GPT-3在通过文本解释来表达音乐决策方面的能力,结果表明GPT-3缺乏理解音乐决策的必要智能,解决该问题的主要障碍是缺乏艺术家创作音乐时解释过程的数据资源。
May, 2022
使用生成AI系统Generative Disco,可以根据音乐的节奏生成音频反应的视频,并通过设计模式进行改进,纵向分为转换和保持,研究表明该系统易于使用且高度表现力,适用于专业人士和AI生成内容正在改变创作工作的领域。
Apr, 2023
介绍了一种增加可解释性的音乐生成的潜变量模型,通过潜空间正则化、用户界面反馈循环和音乐属性可视化,实现了模型和生成音乐结果的可解释性和可调试性。
Aug, 2023
我们提供了一篇综合调查报告,介绍了包括研究项目和商业应用在内的人工智能音乐生成工具。通过对音乐生成方法进行分类,我们发现参数化、基于文本和基于视觉的三种方法。调查重点展示了这些工具的多样性和功能特点,适用于普通听众和专业音乐人。每个工具都有自己的优点和限制,因此我们编制了一份综合列表,用于在选择过程中考虑这些因素。此外,我们的调查揭示了人工智能音乐生成的底层机制和挑战。
Aug, 2023
这篇论文通过对不同组合的Variational Auto-Encoder模型、AI模型的潜在空间配置和训练数据集进行系统研究,表明MeasureVAE在音乐生成性能方面具有更好的重构表现,AdversarialVAE在音乐属性独立性方面表现更好。结果展示了MeasureVAE能够通过可解释的音乐控制维度生成跨音乐流派的音乐,并且在生成简单的流行和摇滚音乐时表现最佳。建议在使用MeasureVAE生成跨流派音乐时,4个正则化维度的32或64个潜在空间尺寸是最佳选择。这些结果是关于音乐生成的最详细的现代生成AI模型配置的比较,并可用于选择和配置AI模型、音乐特征和数据集以实现更易理解的音乐生成。
Nov, 2023
该研究探索生成式人工智能与人类艺术过程相交的关键领域,针对人类为中心的自动歌曲创作中对齐的关系进行研究。通过提出口语描述到歌曲生成的新任务,着重于将生成的内容与口语人类表达相对齐。为了充分满足人类听觉期望并与音乐规范结构对齐的最终目标,该任务旨在弥合口语语言理解和AI模型中的听觉表达之间的鸿沟。通过介绍由专业音乐家和业余爱好者手动注释的Caichong音乐数据集(CaiMD),克服了该领域中数据匮乏的限制。与现有具有专家注释或存在固有偏见的自动生成数据集不同,CaiMD更能满足我们将AI生成的音乐与用户期望结果对齐的目的。此外,提出了一种创新的名为MuDiT/MuSiT的单阶段框架,用于在歌曲创作中实现有效的人机对齐。该框架不仅实现了口语语言与音乐知觉之间的跨模态理解,还确保生成的歌曲与用户期望结果对齐。MuDiT/MuSiT采用一种DiT/SiT模型,用于端到端生成如旋律、和声、节奏、人声和乐器等音乐元素。该方法确保所有生成的音乐元素之间具有和谐的音响连贯性,以更好地与人类听觉期望产生共鸣。
Jul, 2024
大规模文本到音乐生成模型大大增强了音乐创作能力,但其与人类音乐家有效合作的能力仍然有限。本文提出了一个描述音乐交互过程的框架,包括表达、解释和执行控制。根据这个框架,我们认为现有的文本到音乐模型和音乐家之间的主要差距在于解释阶段,模型缺乏解释音乐家控制的能力。我们还提出了两种策略来解决这个差距,并呼吁音乐信息检索界应对解释挑战,以改善人工智能与音乐家的合作。
Jul, 2024
本研究探讨了在基础模型研究进展背景下,音乐生成AI应用的研究空间。文章提出了生成模型的基础表示和可解释性的问题,评估了音乐数据集的现状及其局限性,并探讨了生成模型的应用与版权保护策略。研究为音乐AI领域的未来研究方向提供了重要见解。
Sep, 2024