改进 RVQGAN 实现高保真音频压缩

Jun, 2023

High-Fidelity Audio Compression with Improved RVQGAN

Rithesh Kumar, Prem Seetharaman, Alejandro Luebs, Ishaan Kumar, Kundan Kumar

TL;DR介绍了一种高保真度的神经网络通用音频压缩算法，它结合了高保真度音频生成的进展以及图像领域的更好的向量量化技术，并使用改进的对抗和重构损失将高维自然信号压缩成较低维度的离散令牌，该算法可以通过单一的通用模型压缩所有领域（语音、音乐等）的信号。

Abstract

language models have been successfully used to model natural signals, such as images, speech, and music. A key component of these models is a high quality neural compression model that can compress high-dimension

language models neural compression model audio compression generative modeling high-fidelity

发现论文，激发创造

高保真神经音频压缩

利用神经网络技术，提出了一种先进的实时高保真音频编解码器，其采用流式编解码器结构和量化的潜在空间，并引入了一种新型损失平衡机制和轻量级 Transformer 模型用于压缩。在语音、噪声回声语音和音乐等多个音频领域测试中，该方法在所有评估指标下均优于基线方法。

Oct, 2022

利用微调后的 VQGAN 模型进行极端图像压缩

本文提出了一种基于向量量化 (VQ) 的生成模型的图像压缩编码框架，通过学习 VQGAN 模型的码本可实现在潜空间内对连续信息进行高效压缩，从而在极低比特率下实现优质的重构图像。

Jul, 2023

基于深度神经网络的端到端优化语音编码

该论文介绍了一种基于深度神经网络的语音编码器，它实现了从原始语音数据到压缩、量化、熵编码和解压缩的端到端优化，无需手动特征工程，并在不同的比特率下表现与 AMR-WB 标准相当，同时能够在 3.8GhZ 英特尔 CPU 上实时运行。

Oct, 2017

EVA-GAN: 提升各种音频生成的可扩展生成对抗网络

通过扩展性生成对抗网络（EVA-GAN）以及使用大规模模型、高保真音频生成、领域外数据鲁棒性以及频谱与高频重建方面的显著改进，我们的工作能够通过采用 36000 小时的 44.1kHz 音频数据集、上下文感知模块和人在循环中的工件测量工具包，并对模型扩展至约 2 亿个参数，实现高保真音频的生成。

Jan, 2024

深度学习压缩射频信号分类

我们提出了基于深度学习压缩（DLC）模型 HQARF 的方法，该模型利用了学习的向量量化（VQ）来压缩由 6 个调制类组成的复杂值射频信号样本，以提高人工智能模型对射频信号调制类别推断的性能，并减少带宽和存储的使用以及实时应用的延迟。

Mar, 2024

HiFi-GAN: 高效高保真语音合成的生成对抗网络

该研究提出了 HiFi-GAN，一种高效且高保真度的语音合成方法，通过对声音的周期性模式进行建模，生成的音频质量接近于人类水平。

Oct, 2020

变分贝叶斯量化

我们提出了一种新颖的算法来量化训练模型中的连续潜在表达式，该算法适用于深度概率模型，可以实现数据和模型压缩，并且可以基于后验不确定性使用自适应量化精度来实现可变的码率失真折衷，实验证明了所提出的算法的有效性。

Feb, 2020

神经网络实现的音频超分辨率

该研究介绍了一种新的音频处理技术，利用深度卷积神经网络提高音频的采样率，通过类似于图像超分辨率的过程，在测试过程中预测低分辨率信号中缺失的样本。该方法在实验中无需专门的音频处理技术，能够表现出更好的表现，显示出其在电话、压缩和文本转语音生成中的实用性

Aug, 2017

统一生成和压缩：多阶段变形器在超低比特率图像编码中的应用

本文介绍了一种新的统一图像生成 - 压缩（UIGC）范式，该范式将生成和压缩过程合并在一起，通过采用矢量量化图像模型和多阶段 Transformer 来利用空间上下文信息建模先验分布，从而在实现熵估计和丢失令牌再生成方面成功使用学习到的先验，实验结果表明该 UIGC 框架在感知质量和人类感知方面优于现有编解码器，在极低比特率场景下（<=0.03 bpp）开创了生成式压缩的新方向。

Mar, 2024

深度生成式视频压缩

文章提出了一种基于深度生成模型和序列数据的变分自编码器模型，用于视频压缩，经测试取得了竞争性的压缩效果。

Oct, 2018