Jul, 2024

MuDiT 和 MuSiT:描述到歌曲生成中的口语表达对齐

TL;DR该研究探索生成式人工智能与人类艺术过程相交的关键领域,针对人类为中心的自动歌曲创作中对齐的关系进行研究。通过提出口语描述到歌曲生成的新任务,着重于将生成的内容与口语人类表达相对齐。为了充分满足人类听觉期望并与音乐规范结构对齐的最终目标,该任务旨在弥合口语语言理解和 AI 模型中的听觉表达之间的鸿沟。通过介绍由专业音乐家和业余爱好者手动注释的 Caichong 音乐数据集(CaiMD),克服了该领域中数据匮乏的限制。与现有具有专家注释或存在固有偏见的自动生成数据集不同,CaiMD 更能满足我们将 AI 生成的音乐与用户期望结果对齐的目的。此外,提出了一种创新的名为 MuDiT/MuSiT 的单阶段框架,用于在歌曲创作中实现有效的人机对齐。该框架不仅实现了口语语言与音乐知觉之间的跨模态理解,还确保生成的歌曲与用户期望结果对齐。MuDiT/MuSiT 采用一种 DiT/SiT 模型,用于端到端生成如旋律、和声、节奏、人声和乐器等音乐元素。该方法确保所有生成的音乐元素之间具有和谐的音响连贯性,以更好地与人类听觉期望产生共鸣。