MuDiT 和 MuSiT：描述到歌曲生成中的口语表达对齐

Jul, 2024

MuDiT 和 MuSiT：描述到歌曲生成中的口语表达对齐

MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation

Zihao Wang, Haoxuan Liu, Jiaxing Yu, Tao Zhang, Yan Liu...

TL;DR该研究探索生成式人工智能与人类艺术过程相交的关键领域，针对人类为中心的自动歌曲创作中对齐的关系进行研究。通过提出口语描述到歌曲生成的新任务，着重于将生成的内容与口语人类表达相对齐。为了充分满足人类听觉期望并与音乐规范结构对齐的最终目标，该任务旨在弥合口语语言理解和 AI 模型中的听觉表达之间的鸿沟。通过介绍由专业音乐家和业余爱好者手动注释的 Caichong 音乐数据集（CaiMD），克服了该领域中数据匮乏的限制。与现有具有专家注释或存在固有偏见的自动生成数据集不同，CaiMD 更能满足我们将 AI 生成的音乐与用户期望结果对齐的目的。此外，提出了一种创新的名为 MuDiT/MuSiT 的单阶段框架，用于在歌曲创作中实现有效的人机对齐。该框架不仅实现了口语语言与音乐知觉之间的跨模态理解，还确保生成的歌曲与用户期望结果对齐。MuDiT/MuSiT 采用一种 DiT/SiT 模型，用于端到端生成如旋律、和声、节奏、人声和乐器等音乐元素。该方法确保所有生成的音乐元素之间具有和谐的音响连贯性，以更好地与人类听觉期望产生共鸣。

Abstract

Amid the rising intersection of generative ai and human artistic processes, this study probes the critical yet less-explored terrain of alignment in human-centric automatic song composition. We propose a novel ta

generative ai automatic song composition colloquial language understanding caichong music dataset mudit/musit framework

发现论文，激发创造

MuChin：评估音乐领域语言模型的中国口语描述基准

MuChin 是第一个用于评估多模态大型语言模型在理解和描述音乐方面性能的中文口语音乐描述基准，利用创新的多人、多阶段保障方法和多维、高精度的音乐注释数据集 (CaiMD)，使用 MuChin 评估现有音乐理解模型对于提供口语音乐描述的能力，并开源相关数据和评分代码。

Feb, 2024

音乐对比语音学习

本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法，提出了一种名为 MusCALL 的框架，采用双重编码器架构进行跨模态学习，实现音频和描述语句的对齐，生成用于文本到音频和音频到文本检索的多模式嵌入，实验表明我们的方法在音频与文本检索任务中比基线方法表现更好，并且可成功扩展应用于流派分类和自动标签的零样本转移场景。

Aug, 2022

SongMASS：基于预训练和对齐约束的自动作曲

本文提出了 SongMASS 方法来解决自动生成歌曲时歌词到旋律生成和旋律到歌词生成所面临的限制问题，使用基于掩蔽序列到序列预训练和基于注意力的对齐建模，表现出明显优于基线方法的歌词和旋律生成质量。

Dec, 2020

MusiLingo：使用预训练语言模型在音乐字幕和查询响应中连接音乐和文本

MusiLingo 是一个创新系统，通过使用单个投射层将来自预训练的冻结音乐音频模型 MERT 和冻结的 LLaMA 语言模型中的音乐表示对齐，弥合了音乐音频和文本环境之间的差距，从而在音乐字幕生成和音乐相关的查询响应中展现了竞争性能。

Sep, 2023

MeLFusion: 使用扩散模型合成基于图像和语言线索的音乐

音乐综合，机器学习模型，MeLFusion，视觉信息，和 IMSM 对生成的音乐质量产生显著的影响。

Jun, 2024

在 BLOOM 中：人工创作歌词和艺术中的创造力和亲和力

本研究利用大型多语言语言模型（BLOOM-176B）生成中文歌词，并使用人工评审员对结果进行了连贯性和创造性的评估，发现现有计算度量方法（MAUVE）在评估创造性写作方面存在局限性。本文通过使用中文稳定扩散模型产生高质量歌词指导的唱片封面设计，为寻找灵感的艺术家提供了一种创意方法，并介绍了 MojimLyrics 数据集，该数据集是一个用于未来研究的中文热门歌曲歌词数据集。

Jan, 2023

基于对比学习的多语言音频与歌词对齐

本文介绍了一种新颖的歌词对齐系统，使用对抗学习导出跨模态嵌入，不仅训练简单、能使用弱标注数据、学习强大的文本模型，而且可用于多语言和获得了标准数据集下平均绝对误差小于 0.2 秒的最佳结果。

Jun, 2023

MusicLDM: 使用节奏同步混合策略增强文本生成音乐中的新颖性

通过构建一种文本到音乐模型，并利用分布式扩散模型和音频广义线性模型来进行训练以生成新音乐，解决了音乐生成过程中的数据不足、版权和抄袭等问题。同时通过节拍跟踪和两种不同的数据增强策略，即拍子同步音频混合和拍子同步潜在混合，实现对训练数据的重组，从而生成多样化且保持风格一致的音乐。最终，通过基于对比语音 - 音频预训练模型的评估指标，进一步证明了所提出的音乐生成模型和拍子同步混合策略能够提高生成音乐的质量、创新性和与输入文本的对应关系。

Aug, 2023

无监督的旋律引导歌词生成

本文提出了一种基于分层框架和旋律 - 歌词对齐的歌词生成模型，能够在没有旋律 - 歌词对齐数据的情况下，通过对内容进行控制生成更可唱、更易懂、更连贯和有韵律的高质量歌词。

May, 2023

WikiMuTe：音频音乐的语义描述的网络数据集

使用多模态深度学习技术匹配自由形式的文本与音乐在音乐信息检索领域显示出有希望的结果。本研究提出了一个包含音乐丰富语义描述的新开放数据集 WikiMuTe，数据源于维基百科的音乐作品文章目录。使用专门的文本挖掘流程提取覆盖音乐内容各种主题的长短句描述，例如流派、风格、情感、乐器和节奏。展示了利用该数据集训练了一个联合学习文本和音频表示的模型，并进行跨模态检索。该模型在两个任务上进行评估：基于标签的音乐检索和音乐自动标注。结果表明，尽管我们的方法在多个任务上具有最先进的性能，但仍然观察到性能差异取决于用于训练的数据。

Dec, 2023