通过合成器编程实现创造性的文本 - 音频生成

ICMLJun, 2024

通过合成器编程实现创造性的文本 - 音频生成

Creative Text-to-Audio Generation via Synthesizer Programming

Manuel Cherep, Nikhil Singh, Jessica Shand

TL;DR我们提出了一种文本到音频生成方法（CTAG），该方法利用具有仅有 78 个参数的虚拟模块化声音合成器，通过迭代更新合成器的参数，生成易于检查和调整的高质量音频渲染，其中产生的声音更抽象，捕捉了基本概念特征而非细粒度声学细节，类似于简单的素描可以生动地传达视觉概念。我们的研究结果显示 CTAG 生成的声音独特，并被视为艺术性的，同时也可以类似地识别为最近的神经音频合成模型，使其成为一种有价值且互补的工具。

Abstract

neural audio synthesis methods now allow specifying ideas in natural language. However, these methods produce results that cannot be easily tweaked, as they are based on large latent spaces and up to billions of uninterpretable parameters. We propose a →

neural audio synthesis text-to-audio generation modular sound synthesizer high-quality audio renderings ctag

发现论文，激发创造

神经文本转口头表达：深度文本到视听说话合成实现听觉与逼真图像

在这篇论文中，我们提出了第一个使用 Transformer 且不遵循级联方法的文本驱动音频视觉语音合成器 NEUTART，它使用联合音频视觉特征空间、语音信息的 3D 面部重建以及通过视觉监督的嘴唇阅读损失，该模型能够生成人类般发音和音视频同步的逼真说话人脸视频，实验证明其在客观指标和人类评估方面达到了最先进的生成质量。

Dec, 2023

使用对抗性声码器加速 TTS 合成

该研究提出了一种使用生成对抗网络 (GANs) 的方法，从感知上启发的频谱图到简单的幅度谱图进行映射，以达到比现有的 TTS 系统更快的速度和更好的性能。

Apr, 2019

Tacotron: 面向端到端的语音合成

该研究提出了 Tacotron，一种端到端的生成式文本转语音模型，通过多个关键技术在序列到序列的框架下进行良好性能表现，同时模型以帧为单位直接生成语音，表现自然度和速度方面优于传统的参数化系统。

Mar, 2017

深度之声：实时神经文本转语音

Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统，由五个主要组成部分构成，包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建，既简单又灵活。此外，我们通过优化后的 WaveNet 推断内核，实现了 400 倍的实时速度。

Feb, 2017

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

AudioGen: 基于文本指导的音频生成

本文提出了一种基于文本输入生成音频的生成模型，使用数据增强技术和多流建模来减轻音频生成中的诸多挑战，包括文本注释的稀缺性、高保真音频编码和多个音频源的难以分辨等，并实现了比其他基准模型更好的音频生成效果。

Sep, 2022

神经语音合成调查

本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Jun, 2021

转化音频驱动的说话脸部合成为文本驱动的

该论文提出了一种将预训练的音频驱动人脸合成模型重新编程以使其能够处理文本输入的方法，其中涵盖了文本到音频嵌入、音频驱动模型、语音合成、说话者特征等关键词。

Jun, 2023

用合成标题改进文本到音频模型

通过语音标注管道，使用音频语言模型合成准确且多样的音频标注，提供了合成标注数据集以及训练基于合成标注的文本转音频模型，取得了新的最先进的结果。

Jun, 2024

使用语音合成进行语音识别数据增强的文本生成

本文探讨使用预训练神经网络和传统文本增强方法来进行自动语音识别数据的文本增强，并利用文本转语音系统将生成的合成文本转换为合成语音并添加到自动语音识别训练数据中，实验结果表明使用现代神经方法的文本增强是提高自动语音识别系统准确性的可行工具

May, 2023