ICMLJun, 2024

通过合成器编程实现创造性的文本 - 音频生成

TL;DR我们提出了一种文本到音频生成方法(CTAG),该方法利用具有仅有 78 个参数的虚拟模块化声音合成器,通过迭代更新合成器的参数,生成易于检查和调整的高质量音频渲染,其中产生的声音更抽象,捕捉了基本概念特征而非细粒度声学细节,类似于简单的素描可以生动地传达视觉概念。我们的研究结果显示 CTAG 生成的声音独特,并被视为艺术性的,同时也可以类似地识别为最近的神经音频合成模型,使其成为一种有价值且互补的工具。