通过深度学习从任意语言提示生成鼓律场景
本研究提出使用深度模型进行跨领域的知识迁移,将大规模预训练的语言模型应用于鼓演奏的 MIDI 文件生成。研究表明,GPT3 模型能够生成相对合理的鼓声,但使用其他没有预训练的模型却无法实现。同时,作者还提出了定制结构评估方法,以比较生成的音乐与专业音乐家演奏的音乐,并揭示了此种方法的优缺点。该研究表明,使用大型语言模型进行跨领域迁移学习具有应用前景。
Jan, 2023
DeepRapper 是一种基于 Transformer 的说唱生成系统,可以模拟说唱的韵律和节奏,通过逆向生成具备韵律表现形式的歌词,并在其中插入特殊符号以表现节奏,在宏观和微观层面上评估显示 DeepRapper 生成的歌曲质量高且具有创造性。
Jul, 2021
本论文介绍了一种名为 LyricJam Sonic 的创新型音乐创作工具,采用双模式人工智能驱动方法,具可自主或现场演出的功能,能够帮助电子音乐家重新发掘他们以前的录音,并在实时中创作新的音乐作品。
Oct, 2022
我们提出了一种新颖的可控制系统,用于生成与任意输入音轨相匹配的单音轨,核心是音频自编码器有效地压缩音频波形样本成可逆的潜在表示,并且条件化的潜在扩散模型以输入音轨的潜在编码生成对应音轨的潜在编码,为了提供对生成样本音色的控制,我们引入了一种在扩散采样期间将潜在空间与用户提供的参考样式进行关联的技术,为了进一步提高音频质量,我们使用无分类器引导的方法避免在生成无界潜在空间时出现失真,我们使用配对的音轨混合组成的数据集对模型进行训练,定量实验证明,给定输入音轨,所提出的系统能够生成用户指定音色的低音线,我们的可控条件音频生成框架在帮助音乐制作方面迈出了重要的一步。
Feb, 2024
该研究采用深度学习方法,实现基于输入节拍生成单声部旋律的任务,提出了三种有效的方法,并结合差异化、谐和性和结构特点,允许任何人通过输入节拍或现有作品的旋律来创作自己的音乐作品。
Jun, 2023
本文提出了一种以音乐驱动的舞蹈合成框架,能够在保证特定舞蹈风格总体结构一致的同时,生成长期与节拍同步的多样运动,包括连贯的姿势,按特定分布的相连动作和整个舞蹈的运动顺序。该框架是一个分层系统,包括位姿、动作图案和编舞级别。其中,LSTM 组件生成时间上连续的姿势序列,动作图案级别利用新颖的动态感知丢失来引导一组连续的姿势形成属于特定分布的运动,编舞级别驱动系统遵循舞蹈总体结构,选择表演动作的顺序。实验表明,该以音乐驱动的框架能够在各种舞蹈类型上生成自然、一致的运动,并能控制合成运动的内容。
Nov, 2021
本文提出一种使用 Transformer 模型在音频领域生成鼓声的方法,通过使用含有鼓声和不含鼓声的音轨进行训练,使用 VQ-VAE 进行音频编码,使用 Mel-spectrogram 进行鼓声编码,并且使用与输入音频相关的节拍特征,从而演奏出与输入音频节奏风格一致的鼓声。
Oct, 2022
该论文提出了一种基于机器学习算法的说唱歌词生成方法,将已有歌词中的词组合成有意义和韵律的新歌词,并在表现上超越了最好的人类说唱歌手 21%。
May, 2015
本文介绍了 MusicFrameworks,这是一种基于深度学习的分层音乐结构表示方法;并提出了一种多步骤的生成过程,根据长期重复结构、和弦、旋律轮廓和节奏约束生成完整的旋律。研究结果表明,其中一半的旋律比起 POP909 数据集中由人类作曲家创作的音乐更好或同样好。
Sep, 2021
这篇论文探讨了使用深度神经网络自动生成任意音乐的游戏阶段 - 即图表 - 的方法,并且通过多层前馈神经网络和规则确定玩家的控制方式,成功提高了预测音乐节奏和创作图表的准确度。
Jun, 2018