无监督音频可组合表示
本文提出了一种无监督的基于模型的深度学习方法,用于音频源分离,该方法通过参数化源过滤器模型对每个源进行建模,并使用神经网络以基本频率估计源模型的参数来重构观察到的混合音频信号,实验证明该方法具有较高的数据效率和好的分离效果。
Jan, 2022
本文提供了音频理解模型预训练策略的广泛比较分析,探讨了预训练数据集(音乐或通用音频)和预训练方法(有监督或无监督)对下游任务的影响,特别是在音乐领域的多项任务中,超大规模有人工注释的音乐数据集上训练的有监督模型实现了最先进的性能,而域限制在音乐领域的无监督模型则在某些情况下能实现优异的有监督学习和无监督学习性能,表现出较高的效率和通用性。
Oct, 2022
我们提出了DAVIS,一种基于扩散模型的音频-视觉分离框架,通过生成的方式解决音频-视觉声源分离任务。与现有的判别方法相比,DAVIS利用生成性扩散模型和Separation U-Net从高斯噪声开始合成分离后的幅度,以实现在各种类别中高质量声音分离的目标。我们在特定领域的MUSIC数据集和开放领域的AVE数据集上将DAVIS与现有的最先进的判别式音频-视觉分离方法进行比较,结果表明DAVIS在分离质量方面优于其他方法,展示了我们的框架在处理音频-视觉源分离任务上的优势。
Jul, 2023
我们提出了一种新颖的可控制系统,用于生成与任意输入音轨相匹配的单音轨,核心是音频自编码器有效地压缩音频波形样本成可逆的潜在表示,并且条件化的潜在扩散模型以输入音轨的潜在编码生成对应音轨的潜在编码,为了提供对生成样本音色的控制,我们引入了一种在扩散采样期间将潜在空间与用户提供的参考样式进行关联的技术,为了进一步提高音频质量,我们使用无分类器引导的方法避免在生成无界潜在空间时出现失真,我们使用配对的音轨混合组成的数据集对模型进行训练,定量实验证明,给定输入音轨,所提出的系统能够生成用户指定音色的低音线,我们的可控条件音频生成框架在帮助音乐制作方面迈出了重要的一步。
Feb, 2024
该论文将多源扩散模型推广到任意时域扩散模型,基于文本嵌入来训练这些模型,实现了有机的音乐生成和声音分离,且在松散数据设置下展示出竞争力的生成和分离结果。
Mar, 2024
通过对长时态上下文的生成模型进行训练,我们展示了可以产生长达4分45秒的音乐的可能性。我们的模型是在高度降采样的连续潜在表示(潜在速率为21.5Hz)上操作的扩散变换器,根据音频质量和提示对齐的指标获得了最先进的生成结果,主观测试表明它能产生具有连贯结构的完整音乐。
Apr, 2024
本研究解决了多轨音频中的音乐音源分离问题,提出了一种基于残差量化变分自编码器的新型神经音频编码模型。模型在Slakh2100数据集上训练,显示出接近最先进的结果,同时显著降低了计算资源的需求,具有广泛的应用潜力。
Aug, 2024
本研究解决现有音乐生成模型在生成丰富旋律时存在的不足,提出了一种多源潜在扩散模型(MSLDM),通过变分自编码器(VAE)有效捕捉每个乐器源独特特征。研究表明,该模型在音乐生成的整体和部分性能上显著优于传统模型,具有更好的音质和可用性。
Sep, 2024
本研究解决了现有音乐生成模型无法生成丰富旋律的问题,并提出采用变分自编码器的多源潜在扩散模型(MSLDM)。该方法通过对每个乐器源进行独立编码,显著提高了音乐生成的质量和效率,实验结果表明,MSLDM优于现有的多源扩散模型(MSDM)。
Sep, 2024