深度学习音频生成方法概述

May, 2024

A Survey of Deep Learning Audio Generation Methods

Matej Božić, Marko Horvat

TL;DR本文综述了音频生成中深度学习模型开发所使用的典型技术，包括音频表示、深度学习架构变体及其实际应用，以及常用的评估指标。该文章旨在为音频生成领域的初学者和新手提供对当前最先进的音频生成方法及相关研究的全面理解，以供未来研究探索。

Abstract

This article presents a review of typical techniques used in three distinct aspects of deep learning model development for audio generation. In the first part of the article, we provide an explanation of

deep learning model audio generation audio representations deep learning architecture evaluation metrics

发现论文，激发创造

用于音乐生成的深度学习技术 -- 综述

本文介绍和分析运用人工神经网络生成音乐的不同方法，提出五个维度分析框架，包括目标、表示法、体系结构、挑战和策略，通过比较分析不同模型和技术，提出了一种新的多维分类法，并举例说明了目标、表示法、体系结构、挑战和策略的各种选择。

Sep, 2017

深度音乐生成综述：多层表征、算法、评价及未来方向的全面调查

本研究概述了当前流行的各种利用深度学习算法进行不同音乐生成层次的生成音乐任务，并总结了适用于各种任务的数据集、音乐表示、评估方法以及挑战，同时指出了几个未来的研究方向。

Nov, 2020

音频信号处理的深度学习

该研究文章综述了当前音频信号处理领域中基于深度学习的技术，着重介绍了其在语音、音乐、环境声音处理中的相同点和差异，强调了其潜在的交叉互补性。文章介绍了主要的特征表示和深度学习模型，以及其在音频识别和合成分离领域的应用，并最终确定了深度学习在音频信号处理中的关键问题和未来研究方向。

Apr, 2019

互动背景下的音乐生成调查

近年来，机器学习，特别是生成对抗神经网络（GANs）和基于注意力的神经网络（transformers），已成功用于作曲和生成音乐，包括旋律和多声部作品。然而，现有研究主要集中在风格复制和转换的问题上，并未涉及到人机共同创作和评估。本文综述了音乐表征、特征分析、启发式算法、统计和参数建模，人类和自动化评估措施，并讨论了哪种方法和模型最适合于实时互动。

Feb, 2024

从人工神经网络到深度学习在音乐生成中的历史、概念和趋势

本文介绍了基于深度学习技术的音乐生成方法，包括早期使用人工神经网络的作品和最近的系统，使用现代深度学习技术和控制手段生成具有不同音乐风格的音乐。

Apr, 2020

ArchiSound: 漫射生成音频

该论文研究了扩散模型在音频生成方面的应用，提出了多种模型来满足音频生成的多方面需求，并通过简化工具库加速实时推理。

Jan, 2023

学习生成寂静视频的逼真音频的初步探索

通过深度学习的框架及改进的人工音频生成技术，本研究旨在生成与视频相符的逼真音频效果。尝试了多种模型结构，其中基于 Transformer 的架构效果最为优秀，能有效地匹配低频的视觉模式，但在生成细微波形方面表现不佳。

Aug, 2023

深度图生成器：综述

本综述对基于深度学习的图形生成方法进行了全面调查，并将其分为自回归，自编码，强化学习，对抗生成和流生成五类，给出了各类方法的详细描述，并介绍了公开源代码，常用数据集和最广泛使用的评估指标，最后强调了现有的挑战和讨论了未来的研究方向。

Dec, 2020

基于生成对抗网络的音频到场景图像合成

通过使用生成对抗网络、谱范数、投影判别器和辅助分类器等技术，我们的模型可以更好地生成声音相关的图像，这表明我们的模型在一定程度上真正了解声音和图像之间的关系。

Aug, 2018

基于神经网络的语音合成方法中最新的波形产生和声学模型方法的比较

本文研究语音合成技术，并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性，在大规模众包评估中，发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时，使用相同的自回归声学模型进行评估，Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是，组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。

Apr, 2018