PromptCodec：基于分离表示学习的自适应特征感知提示编码的高保真神经语音编解码器

Apr, 2024

PromptCodec：基于分离表示学习的自适应特征感知提示编码的高保真神经语音编解码器

PromptCodec: High-Fidelity Neural Speech Codec using Disentangled Representation Learning based Adaptive Feature-aware Prompt Encoders

PDF

Yu Pan, Lei Ma, Jianjun Zhao

TL;DR利用解耦表示学习为基准的特征感知提示编码器，我们提出了 PromptCodec，这是一种创新的端到端神经语音编解码模型，用于高压缩比下确保音频重建的高保真度。PromptCodec 通过整合提示编码器的额外特征表示，可以分配需要处理的语音信息并提高其能力。此外，我们引入了一种简单但有效的自适应特征加权融合方法，用于整合不同编码器的特征，并基于余弦距离提出了一种新颖的解耦表示学习策略以优化 PromptCodec 的编码器，从而进一步提高其性能。在 LibriTTS 上的实验证明，我们提出的 PromptCodec 在不同比特率条件下始终优于最先进的神经语音编解码模型，并在低比特率下取得了令人印象深刻的性能。

Abstract

neural speech codec has recently gained widespread attention in generative speech modeling domains, like voice conversion, text-to-speech synthesis, etc. However, ensuring high-fidelity audio reconstruction of sp

neural speech codec generative speech modeling high-fidelity audio reconstruction disentangled representation learning low bitrates

发现论文，激发创造

RepCodec: 一种用于语音分词的语音表示编码器

通过学习语音编码器、编解码器和向量量化码本，RepCodec 通过语义语音标记化将语音波形转换为语义标记，从而显著提升语音理解和生成的性能。

Aug, 2023

DC CoMix TTS：一种具有离散编码和混合器合作的端到端表现力语音合成技术

本文提出了一种新的输入表示和简单体系结构，通过引入离散码到参考编码器的输入，利用音频压缩模型的向量量化器来实现改进的韵律建模。在主观和客观评估中证明了该方法的有效性，即离散码作为输入时参考编码器学习更好的说话人无关韵律。

May, 2023

高保真神经音频压缩

利用神经网络技术，提出了一种先进的实时高保真音频编解码器，其采用流式编解码器结构和量化的潜在空间，并引入了一种新型损失平衡机制和轻量级 Transformer 模型用于压缩。在语音、噪声回声语音和音乐等多个音频领域测试中，该方法在所有评估指标下均优于基线方法。

Oct, 2022

WAVPROMPT: 冻结语言模型进行少样本口语理解

介绍了一种名为 WavPrompt 的语音理解框架，该框架使用预先训练的自回归语言模型，通过微调一种 wav2vec 模型生成一系列音频嵌入来实现在音频文本场景下的 few-shot 学习能力。实验表明，WavPrompt 在执行语音理解任务时表现出比朴素的文本基线更好的表现，并且能够提取更多的信息。

Mar, 2022

利用编码解耦的有效混合专家方法进行代码切换语音识别

通过引入一种新的解缠损失函数，本研究专注于改进端到端自动语音识别（ASR）的声学编码器，以解决代码切换现象带来的挑战，并通过实验验证了该方法的优越性。

Feb, 2024

用于自监督编码器 - 解码器语音模型的提示和适配器调整

通过在 Wav2Seq 模型上进行提示和适配器调优，我们在序列生成任务中取得了显著的成果，尤其在 ASR 的词错误率和槽位填充的 F1 分数上相对于往前的工作分别提高了 53% 和 27%。在 7 种语言中，当可训练参数有限时，提示和适配器调优表现优于传统的微调方法，尤其在资源匮乏的情况下，提示的表现更好。

Oct, 2023

EnCodecMAE: 利用神经编解码器进行通用音频表示学习

本研究探讨了使用神经音频编解码器 EnCodec 生成发音、音乐和环境声音的离散目标，以学习基于遮蔽自动编码器的通用音频模型 EncodecMAE，并在广泛的音频任务中取得了与领先的音频表示模型相媲美或更好的性能。

Sep, 2023

一次编码，多次并行解码：高效 Transformer 解码

基于 Transformer 的 NLP 模型在计算成本上限制了其应用场景。我们引入了一种新的编码器 - 解码器模型配置（PiD），通过一次编码和并行解码输出来提高结构化输出和问答任务的效率，避免了重复的输入编码以及减小解码器的内存占用，从而获得了可比较或更好性能并具有高达 4.6 倍加速的计算减少。

Mar, 2024

非平行序列到序列语音转换系统中的语言和说话人分离表征

本文提出了一种使用非并行训练数据的序列到序列（seq2seq）语音转换方法，该方法使用编码器 - 解码器神经网络框架构建模型，从声学特征中提取解交叉的语言和说话者表示，并通过保留源话语的语言表示，将说话者表示替换为目标音频的表示来实现语音转换。实验结果表明，该方法在语音转换挑战 2018 中得到了比最佳非并行语音转换方法更高的相似度和自然程度。

Jun, 2019

来自离散分离自监督表征的语音再合成

使用自监督离散表示来获取可控的语音合成的解耦表征，以及实现在轻量级语音编解码器中更好的语音质量。

Apr, 2021