编解码器的重要性：探讨音频语言模型中编解码器的语义不足

Aug, 2024

编解码器的重要性：探讨音频语言模型中编解码器的语义不足

Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model

Zhen Ye, Peiwen Sun, Jiahe Lei, Hongzhan Lin, Xu Tan...

TL;DR本研究解决了当前音频语言模型编解码器在生成音频时无法保持语义完整性的不足，尤其是由于音频编码的语义误解导致内容不准确和词错误率升高的问题。我们提出了一种名为X-Codec的新方法，通过在残差向量量化前引入预训练的语义编码器的语义特征，提升编解码器的语义能力，从而显著降低语音合成任务的词错误率，并拓展到音乐与声音生成等非语音应用。

Abstract

Recent advancements in Audio Generation have been significantly propelled by the capabilities of Large Language Models (LLMs). The existing research on audio LLM has primarily focused on enhancing the architecture and scale of →

发现论文，激发创造

神经编解码语言模型是零样本文本到语音合成器

本文介绍了一种基于语言模型的文本到语音合成方法，使用名为Vall-E的神经编解码器语言模型，通过在预训练阶段将60K小时的英语语音数据进行规模扩大，可以使用仅三秒的不同说话人的注册录音作为语音提示来合成高质量的个性化语音，并能够在保持发言人情感和声学环境的前提下，提高声音自然度和发言人相似度。

Jan, 2023

RepCodec: 一种用于语音分词的语音表示编码器

通过学习语音编码器、编解码器和向量量化码本，RepCodec通过语义语音标记化将语音波形转换为语义标记，从而显著提升语音理解和生成的性能。

Aug, 2023

EnCodecMAE: 利用神经编解码器进行通用音频表示学习

本研究探讨了使用神经音频编解码器EnCodec生成发音、音乐和环境声音的离散目标，以学习基于遮蔽自动编码器的通用音频模型EncodecMAE，并在广泛的音频任务中取得了与领先的音频表示模型相媲美或更好的性能。

Sep, 2023

ELLA-V: 稳定的神经编码语言建模与对齐引导的序列重排

该研究提出了ELLAA-V，一种基于语言模型的零样本文本转语音框架，可以在音素级别实现合成音频的细粒度控制，并且在准确性和稳定性方面优于现有方法。

Jan, 2024

SemantiCodec：一种用于通用声音的超低比特率语义音频编解码器

利用语言模型和音频编解码技术，SemantiCodec是一种能够以非常低的比特率将各种类型的音频压缩为每秒少于一百个标记的新型编解码器，具有更高的重构质量和更丰富的语义信息。

Apr, 2024

C3LLM: 使用大型语言模型的条件多模式内容生成

我们介绍了C3LLM（Conditioned-on-Three-Modalities Large Language Models），它是一个新颖的框架，将视频到音频、音频到文本和文本到音频三个任务结合在一起。C3LLM以大型语言模型（LLM）结构为基础，作为不同模态对齐、综合给定条件信息并以离散方式进行多模态生成的桥梁。我们的贡献如下：首先，我们使用预训练音频码本为音频生成任务自适应了分层结构。具体而言，我们训练LLM从给定条件生成音频语义标记，并进一步使用非自回归变压器在层级中生成不同级别的声学标记以增强生成音频的保真度。其次，基于LLM最初设计用于具有下一个词预测方法的离散任务的直觉，我们使用离散表示进行音频生成，并将其语义含义压缩为声学标记，类似于向LLM添加“声学词汇”。第三，我们的方法将以前的音频理解、视频到音频生成和文本到音频生成任务结合到一个统一的模型中，以端到端的方式提供更多的灵活性。我们的C3LLM通过各种自动化评估指标实现了改进的结果，与以前的方法相比，提供了更好的语义对齐。

May, 2024

基于音频编解码器的零样本文本到语音合成的改进：多模态背景和大型语言模型

通过将Qformer应用于多模态上下文信息，结合预训练的大型语言模型和音频编码器，我们提出了一种适应多种上下文TTS场景的全新语音合成模型，通过预测语义令牌和生成声学令牌来提高音频质量和说话人相似性。广泛的客观和主观评估结果表明，我们的方法在各种上下文TTS场景中优于基准模型。

Jun, 2024

如何从自监督模型中提取离散音频标记？

这篇论文探讨了语义标记的最佳配置，提出了训练通用声码器的可扩展解决方案，并使用注意机制来提高语义标记在多种音频应用中的适应性和性能。

Jun, 2024

WavTokenizer：高效的音频离散编码器标记器

本研究解决了音频领域高维自然信号压缩不足的问题。WavTokenizer通过设计更广泛的VQ空间、扩展上下文窗口和改进的注意力网络，实现了极高的压缩效率和卓越的重建质量，其一秒的24kHz音频仅需40或75个标记。研究结果显示，该模型在音频重建中表现优异，提升了语义信息的丰富性，具有显著的潜在应用价值。

Aug, 2024

低帧率语音编解码器：旨在快速高质量语音大型语言模型训练和推理的编解码器

本研究解决了在自回归模型中，传统音频编解码器高帧率导致训练和推理缓慢的问题。提出的低帧率语音编解码器（LFSC）采用有限标量量化和对抗训练，能够以1.89 kbps的比特率和21.5帧每秒的速度实现高质量音频压缩。实验表明该编解码器使基于大型语言模型的文本到语音推理速度提高约三倍，同时提高了可懂性，音质与之前的模型相当。

Sep, 2024