Jun, 2023

改进 RVQGAN 实现高保真音频压缩

TL;DR介绍了一种高保真度的神经网络通用音频压缩算法,它结合了高保真度音频生成的进展以及图像领域的更好的向量量化技术,并使用改进的对抗和重构损失将高维自然信号压缩成较低维度的离散令牌,该算法可以通过单一的通用模型压缩所有领域(语音、音乐等)的信号。