高保真神经音频压缩

Oct, 2022

High Fidelity Neural Audio Compression

Alexandre Défossez, Jade Copet, Gabriel Synnaeve, Yossi Adi

TL;DR利用神经网络技术，提出了一种先进的实时高保真音频编解码器，其采用流式编解码器结构和量化的潜在空间，并引入了一种新型损失平衡机制和轻量级 Transformer 模型用于压缩。在语音、噪声回声语音和音乐等多个音频领域测试中，该方法在所有评估指标下均优于基线方法。

Abstract

We introduce a state-of-the-art real-time, high-fidelity, audio codec leveraging neural networks. It consists in a streaming encoder-decoder architecture with quantized latent space trained in an end-to-end fashi

real-time audio codec neural networks latent space spectrogram adversary transformer models

发现论文，激发创造

改进 RVQGAN 实现高保真音频压缩

介绍了一种高保真度的神经网络通用音频压缩算法，它结合了高保真度音频生成的进展以及图像领域的更好的向量量化技术，并使用改进的对抗和重构损失将高维自然信号压缩成较低维度的离散令牌，该算法可以通过单一的通用模型压缩所有领域（语音、音乐等）的信号。

Jun, 2023

基于深度神经网络的端到端优化语音编码

该论文介绍了一种基于深度神经网络的语音编码器，它实现了从原始语音数据到压缩、量化、熵编码和解压缩的端到端优化，无需手动特征工程，并在不同的比特率下表现与 AMR-WB 标准相当，同时能够在 3.8GhZ 英特尔 CPU 上实时运行。

Oct, 2017

高保真神经图像压缩的语义集成损失和潜在精炼

该研究提出了一种改进的神经压缩方法，通过使用复杂的语义集成损失、潜在精细化过程和优化可视保真度的目标，显著提高了神经图像压缩的统计保真度，并在 CLIC2024 验证集上相较于 MS-ILLM 在 FID 指标下实现了 62% 的比特率节省。

Jan, 2024

基于 VQ-VAE 和 WaveNet 解码器的低比特率语音编码

本文展示了使用基于 VQ-VAE 和 WaveNet 解码器的神经网络架构进行低码率语音编码的有效性，该模型在 LibriSpeech 语音数据集上产生了 1.6 kbps 的编码音频，其感知质量在 2.4 kbps 的 MELP 编解码器和 23.05 kbps 的 AMR-WB 编解码器之间，并且在高质量声音上进行训练后，该模型产生的音频质量与 23.05 kbps 的 AMR-WB 编解码器相当。

Oct, 2019

一种简化了的全量化 Transformer 用于端到端语音识别

本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法，成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构，实验结果表明，我们能够通过将数字精度减少到 8 位定点精度，将全精度模型的参数数量减小并将模型进一步压缩 4 倍，同时维持模型高精度。

Nov, 2019

端到端的双耳语音合成

本文提出了一种端到端的双耳语音合成系统，该系统将低比特率音频编解码器与强大的双耳解码器相结合，能够准确地进行语音双耳化，同时忠实地重构环境因素，如环境噪声或混响。网络采用改进的矢量量化变分自动编码器，通过多个仔细设计的目标进行训练，包括对抗损失。我们使用客观指标和感知研究，对内部双耳数据集进行了评估。结果表明，所提出的方法比以前的方法更接近基准数据。特别是，我们展示了对抗损失在捕捉创建真实听觉场景所需的环境效应方面的能力。

Jul, 2022

利用量化噪音进行极限模型压缩的训练

本文针对在给定模型大小时最大化其准确性的紧凑模型生成问题，将讨论延伸量化感知训练的方法，实现了仅在每个前向传递过程中量化不同的一组随机权重，从而利用 SE 残差正向时间传递的无偏梯度实现极端压缩的目的，并在自然语言处理和图像分类领域分别取得了新的准确性与模型大小之间的最优折中表现。

Apr, 2020

自然语言理解的量化感知和张量压缩 Transformer 训练

该论文提出了一种量化感知张量压缩训练方法，通过将 Transformer 模型的嵌入层和线性层压缩成小的低秩张量核，进一步获得低精度的模型表示进行端到端和蒸馏 - based 训练，并应用层与层的蒸馏方法将预训练的 Transformer 模型转换为量化和张量压缩的学生模型以提高收敛速度，并在两个自然语言理解任务中表现出高达 63 倍的压缩比、几乎无损的精度损失和显著的推断和训练加速。

Jun, 2023

深度声学模型的高效表示与执行

本文提出了一种简单而高效的量化方案，将神经网络的参数分辨率从 32 位浮点值减少到 8 位整数值，从而产生了显著的内存节省和可以使用优化后的硬件指令进行整数算术操作，从而显着降低了推理成本，并通过提出的 “量化感知” 训练过程进行网络训练，发现可以恢复大部分量化引入的精度损失，并验证了该技术在一个开放式大词汇语音识别任务上的应用。

Jul, 2016

神经网络实现的音频超分辨率

该研究介绍了一种新的音频处理技术，利用深度卷积神经网络提高音频的采样率，通过类似于图像超分辨率的过程，在测试过程中预测低分辨率信号中缺失的样本。该方法在实验中无需专门的音频处理技术，能够表现出更好的表现，显示出其在电话、压缩和文本转语音生成中的实用性

Aug, 2017