Jan, 2021

MP3net: 用简单的卷积 GAN 从原始音频中生成连贯分钟级音乐

TL;DR本文提出了一种基于卷积神经网络的生成对抗网络,应用了音频压缩和MDCT数据表示等技术生成长时间和高质量的音频样本,并利用人耳的听觉掩蔽效应和心理声学感知限制来拓宽真实分布并稳定训练过程。经过250小时的训练,使用单个Cloud TPUv2可以创造出95秒的立体声音轨,且模型具有快速生成新歌曲的优势。