低帧率语音编解码器：旨在快速高质量语音大型语言模型训练和推理的编解码器

Sep, 2024

低帧率语音编解码器：旨在快速高质量语音大型语言模型训练和推理的编解码器

Low Frame-rate Speech Codec: a Codec Designed for Fast High-quality Speech LLM Training and Inference

Edresson Casanova, Ryan Langman, Paarth Neekhara, Shehzeen Hussain, Jason Li...

TL;DR本研究解决了在自回归模型中，传统音频编解码器高帧率导致训练和推理缓慢的问题。提出的低帧率语音编解码器（LFSC）采用有限标量量化和对抗训练，能够以1.89 kbps的比特率和21.5帧每秒的速度实现高质量音频压缩。实验表明该编解码器使基于大型语言模型的文本到语音推理速度提高约三倍，同时提高了可懂性，音质与之前的模型相当。

Abstract

Large Language Models (LLMs) have significantly advanced Audio Processing through audio codecs that convert audio into discrete tokens, enabling the application of language modeling techniques to audio data. Howe

发现论文，激发创造

基于深度神经网络的端到端优化语音编码

该论文介绍了一种基于深度神经网络的语音编码器，它实现了从原始语音数据到压缩、量化、熵编码和解压缩的端到端优化，无需手动特征工程，并在不同的比特率下表现与AMR-WB标准相当，同时能够在3.8GhZ英特尔CPU上实时运行。

Oct, 2017

基于 VQ-VAE 和 WaveNet 解码器的低比特率语音编码

本文展示了使用基于VQ-VAE和WaveNet解码器的神经网络架构进行低码率语音编码的有效性，该模型在LibriSpeech语音数据集上产生了1.6 kbps的编码音频，其感知质量在2.4 kbps的MELP编解码器和23.05 kbps的AMR-WB编解码器之间，并且在高质量声音上进行训练后，该模型产生的音频质量与23.05 kbps的AMR-WB编解码器相当。

Oct, 2019

高保真神经音频压缩

利用神经网络技术，提出了一种先进的实时高保真音频编解码器，其采用流式编解码器结构和量化的潜在空间，并引入了一种新型损失平衡机制和轻量级 Transformer 模型用于压缩。在语音、噪声回声语音和音乐等多个音频领域测试中，该方法在所有评估指标下均优于基线方法。

Oct, 2022

学习紧凑的语音表示以实现低资源语言的高质量神经语音合成

本文提出了一种用于提高低资源的TTS系统性能的方法，其利用紧凑的语音表示并利用Multi-Stage Multi-Codebook(MSMC) VQ-GAN学习MSMCR表示并解码成波形，并使用多阶段预测器从文本中预测MSMCRs进行TTS合成，并通过优化训练策略，利用训练集增强了微型语言环境下的训练质量，并在MOS测试中显示出优异的性能。

Oct, 2022

关于语音到文本和大型语言模型集成的仅解码器架构

该研究介绍了Speech-LLaMA，一种将声学信息有效地整合到基于文本的大型语言模型中的新方法，并进一步探索了仅解码器架构在语音处理任务中的应用。

Jul, 2023

极端编码器输出帧率降低：改善大规模端到端模型的计算延迟

通过在编码器中应用多个帧压缩层，我们能够以较低的计算复杂度实现在每2.56秒的输入语音中生成一个编码器输出帧，而又不显著影响大规模语音搜索任务的词错误率，并相比于强大但计算代价高昂的基准模型，降低编码器和解码器延迟分别达到了48%和92%。

Feb, 2024

SemantiCodec：一种用于通用声音的超低比特率语义音频编解码器

利用语言模型和音频编解码技术，SemantiCodec是一种能够以非常低的比特率将各种类型的音频压缩为每秒少于一百个标记的新型编解码器，具有更高的重构质量和更丰富的语义信息。

Apr, 2024

Codecfake: 用于检测基于LLM的深度伪造音频的初始数据集

通过Codecfake数据集的实验结果显示，相较于使用vocoder的音频深度伪造检测模型，经过编码器训练的模型在Codecfake测试集上平均等误差率减少了41.406%。

Jun, 2024

基于音频编解码的语音分离

通过在 NAC 的嵌入空间中进行音频编码器（Codec）的语音分离（SS）任务，我们提出了一种新的模型 Codecformer，在推断过程中实现了 52 倍的 MAC 降低，并且产生了与 Sepformer 云部署相当的分离性能，为在实际场景中实现高效的 SS 打开了新的方向。

Jun, 2024

编解码器的重要性：探讨音频语言模型中编解码器的语义不足

本研究解决了当前音频语言模型编解码器在生成音频时无法保持语义完整性的不足，尤其是由于音频编码的语义误解导致内容不准确和词错误率升高的问题。我们提出了一种名为X-Codec的新方法，通过在残差向量量化前引入预训练的语义编码器的语义特征，提升编解码器的语义能力，从而显著降低语音合成任务的词错误率，并拓展到音乐与声音生成等非语音应用。

Aug, 2024