InstructME: 指令引导的音乐编辑和混音框架，其中包括潜在扩散模型

Aug, 2023

InstructME: 指令引导的音乐编辑和混音框架，其中包括潜在扩散模型

InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models

Bing Han, Junyu Dai, Xuchen Song, Weituo Hao, Xinyan He...

TL;DR我们开发了 InstructME，这是一个基于潜在扩散模型的指导式音乐编辑和混音框架，通过多尺度聚合巩固了 U-Net，并引入和语义空间的和弦进行矩阵作为条件信息以提高旋律和谐。我们的方法在音乐质量、文本相关性和和谐度方面明显优于现有系统。

Abstract

music editing primarily entails the modification of instrument tracks or remixing in the whole, which offers a novel reinterpretation of the original piece through a series of operations. These music processing m

music editing remixing latent diffusion models instructme melodic harmony

发现论文，激发创造

AUDIT: 采用潜在扩散模型按照说明进行音频编辑

本研究提出 AUDIT，一种基于潜在扩散模型的指导音频编辑模型，通过三元训练数据（指令、输入音频、输出音频）训练扩散模型，同时利用输入和指令生成输出音频，实现只修改需要编辑的音频，且只需要编辑指令而非完整的目标音频描述，取得了多项音频编辑任务上的最优结果。

Apr, 2023

Instruct-MusicGen: 通过指令调整解锁面向音乐语言模型的文本到音乐编辑

通过预训练的 MusicGen 模型进行微调，我们引入 Instruct-MusicGen，它通过添加文本融合模块和音频融合模块，可以同时处理指令文本和音频输入，从而实现高效的文本转音乐编辑，提高了音乐语言模型在动态音乐制作环境中的应用广度。

May, 2024

MeLFusion: 使用扩散模型合成基于图像和语言线索的音乐

音乐综合，机器学习模型，MeLFusion，视觉信息，和 IMSM 对生成的音乐质量产生显著的影响。

Jun, 2024

InstructEdit：用于大型语言模型的指令基础知识编辑

大规模语言模型的知识编辑可以提供一种有效的解决方案，以改变模型的行为而不会对整体性能产生负面影响。为了解决当前方法在任务上的有限泛化能力的问题，我们采取了第一步来分析知识编辑中的多任务泛化问题。具体而言，我们开发了一种基于指令的编辑技术，称为 InstructEdit，它通过简单的指令同时促进编辑器对不同任务性能的适应。通过仅使用一个统一的编辑器为每个大规模语言模型，我们经验证明 InstructEdit 可以提高编辑器的控制能力，在多任务编辑设置中可平均提高 14.86％的可靠性。此外，涉及未见任务的实验表明 InstructEdit 始终优于先前的强基准。为了进一步研究基于指令的知识编辑的基本机制，我们分析了编辑梯度方向的主要成分，发现指令可以帮助控制具有更强的无法覆盖的泛化能力的优化方向。代码和数据集将在此 https URL 中提供。

Feb, 2024

InstructEdit：通过用户指令改进基于扩散的图像编辑自动蒙版

本文提出了一种名为 InstructEdit 的框架，其中包括了语言处理器，分段器和图像编辑器三个组件，这种框架可以根据用户的指令进行细粒度的编辑，且在输入图像中包含复杂对象或多个对象的精细编辑应用中表现优异。

May, 2023

EasyInstruct：大型语言模型简单易用的指令处理框架

近年来，指导调整已经引起了越来越多的关注，并成为增强大型语言模型（LLM）功能的关键技术。为了构建高质量的指导数据集，已经提出了许多指导处理方法，旨在实现数据数量和数据质量之间的微妙平衡。然而，由于各种指导处理方法之间存在的不一致性，社区中没有标准的开源指导处理实现框架可用，这妨碍了从业者的进一步开发和进展。为了促进指导处理的研究和开发，我们提供了 EasyInstruct，这是一个易于使用的 LLM 指导处理框架，它将指导生成、选择和提示模块化，同时考虑它们的组合和互动。EasyInstruct 已在 https URL 上公开发布，并配有一个运行中的演示应用程序，用于快速启动，并呼吁更广泛的以指导数据为中心的研究。

Feb, 2024

通过基于内容的控制，进行可定向的长期音乐音频生成和编辑

可控音乐生成对于人工智能与人类共创音乐至关重要。大型语言模型在生成高质量音乐方面表现出了潜力，但其自回归生成的特性限制了其在音乐编辑任务中的实用性。为了弥合这一差距，我们引入了一种新颖的参数高效微调（PEFT）方法，通过此方法，自回归语言模型可以无缝地解决音乐修复任务。此外，我们的 PEFT 方法结合了基于帧级内容的控制，便于音轨调节的音乐细化和谱面调节的音乐编排。我们将此方法应用于优化 MusicGen，一种领先的自回归音乐生成模型。我们的实验在多个音乐编辑任务中显示了有希望的结果，为未来的 AI 驱动音乐编辑工具提供了更灵活的控制。我们的工作演示页面和源代码可以在线上获取。

Feb, 2024

使用潜在扩散模型进行音乐分轨插入的去减训练

我们提出了减法训练，一种简单而新颖的方法，用于在给定其他乐器作为上下文的情况下合成个别乐器音轨。该方法将一组完整的音乐混音数据集与缺少特定音轨的数据集变体以及由 LLM 生成的描述如何重新引入缺失音轨的文本指令配对。然后，我们对预训练的文本到音频扩散模型进行微调，以根据现有音轨和文本指令生成缺失的乐器音轨。我们的结果表明减法训练在创建与现有音轨无缝融合的真实鼓音轨方面具有有效性。我们还展示了如何使用文本指令控制插入音轨的生成，以在节奏、动态和风格方面修改完整的歌曲中的单个乐器的风格，同时保持其他乐器不变。最后，我们将这种技术扩展到 MIDI 格式，成功为不完整的编曲生成兼容的低音、鼓和吉他部分。

Jun, 2024

SmartEdit: 利用多模型大型语言模型探索基于复杂指令的图像编辑

SmartEdit 是一种基于指令的图像编辑方法，利用多模态大型语言模型（MLLMS）增强理解和推理能力，并通过双向交互模块实现输入图像和 MLLM 输出之间的综合双向信息交互，从而实现更复杂指令下的图像编辑。通过新构建的 Reason-Edit 评估数据集，定量和定性结果表明 SmartEdit 优于先前的方法，为复杂指令 - based 图像编辑的实际应用铺平了道路。

Dec, 2023

MusicMagus：零射手风琴文本音乐编辑通过扩散模型

通过操纵潜空间并添加额外限制，本研究介绍了一种新颖方法来编辑文本生成的音乐，实现修改特定属性（如体裁、情绪和乐器），同时保持其他方面的不变。实验结果表明，在风格和音色转移评估中，与零样本和某些监督基线相比，我们的方法表现出卓越的性能。此外，我们展示了本方法在真实音乐编辑场景中的实际适用性。

Feb, 2024