该论文研究了扩散模型在音频生成方面的应用,提出了多种模型来满足音频生成的多方面需求,并通过简化工具库加速实时推理。
Jan, 2023
基于扩散模型的音频修复算法在语音增强和音乐修复任务中表现出色,既具有可解释性又具有出色的音质性能。
Feb, 2024
我们展示了如何从扩散模型中进行条件生成,以解决音乐制作中的各种现实任务,包括音乐音频的延续、修复和再生,不同音乐轨道之间的平滑过渡以及将样式特征传递给现有音频片段。
Nov, 2023
使用预训练的生成式机器学习模型,本文介绍了第一步,即创造一个工具,使艺术家能够创建音乐可视化。通过利用各种点、张量和形态学操作来进行网络弯曲,我们发现这个过程能够产生多种视觉效果,包括一些难以使用标准图像编辑工具重新创建的效果。最后,我们运用稳定扩散和网络弯曲操作,生成具有音乐响应的视频,并对某些变换对图像和基于这些变换学习稳定扩散的潜在空间的可能性进行了讨论。
Jun, 2024
通过新的参数化方法和扩散模型的渐进提炼过程,从而在不降低感知质量的前提下将采样步骤尽量减少到四步,从而提高了采样效率,并为生成建模提供了高效的解决方案。
Feb, 2022
本研究探索了扩散模型在生成音乐方面的潜力,提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐,同时开源相关代码和音频样本以促进领域内未来研究。
利用高保真多带扩散模型,基于低比特率离散表示生成任何类型的音频,其感知质量比最先进的生成技术更好。
Aug, 2023
借助生成性重放的扩散模型的生成蒸馏方法,可以显着提升持续学习性能,只需适度增加计算成本。
我们提出了一种能够在大规模图像扩散模型中实现音频条件的方法,通过将从音频剪辑中获取的特征映射到可以注入扩散模型的令牌中,引入了额外的音频 - 图像交叉注意力层,可以与扩散编辑方法相结合进行音频条件的图像编辑。
May, 2024
通过两阶段训练方法,我们解决了扩散模型在语音增强中的潜在问题,实现了与基准模型相当的性能,缩短了推理过程时间,并显著优于扩散基线模型。
Sep, 2023