RepCodec: 一种用于语音分词的语音表示编码器

Aug, 2023

RepCodec: 一种用于语音分词的语音表示编码器

RepCodec: A Speech Representation Codec for Speech Tokenization

Zhichao Huang, Chutong Meng, Tom Ko

TL;DR通过学习语音编码器、编解码器和向量量化码本，RepCodec 通过语义语音标记化将语音波形转换为语义标记，从而显著提升语音理解和生成的性能。

Abstract

With recent rapid growth of large language models (LLMs), discrete speech tokenization has played an important role for injecting speech into LLMs. However, this discretization gives rise to a loss of information, consequently impairing overall performance. To improve the performance o

large language models speech tokenization repcodec semantic tokens speech processing

发现论文，激发创造

PromptCodec：基于分离表示学习的自适应特征感知提示编码的高保真神经语音编解码器

利用解耦表示学习为基准的特征感知提示编码器，我们提出了 PromptCodec，这是一种创新的端到端神经语音编解码模型，用于高压缩比下确保音频重建的高保真度。PromptCodec 通过整合提示编码器的额外特征表示，可以分配需要处理的语音信息并提高其能力。此外，我们引入了一种简单但有效的自适应特征加权融合方法，用于整合不同编码器的特征，并基于余弦距离提出了一种新颖的解耦表示学习策略以优化 PromptCodec 的编码器，从而进一步提高其性能。在 LibriTTS 上的实验证明，我们提出的 PromptCodec 在不同比特率条件下始终优于最先进的神经语音编解码模型，并在低比特率下取得了令人印象深刻的性能。

Apr, 2024

SemantiCodec：一种用于通用声音的超低比特率语义音频编解码器

利用语言模型和音频编解码技术，SemantiCodec 是一种能够以非常低的比特率将各种类型的音频压缩为每秒少于一百个标记的新型编解码器，具有更高的重构质量和更丰富的语义信息。

Apr, 2024

CCRep：通过预训练代码模型和查询反馈学习代码变更表示

此研究使用 CCRep 方法，通过将代码更改表示为特征向量，学习在多种软件工程任务上使用的高质量的代码更改表示方法。实验结果表明 CCRep 在各任务上表现优异。

Feb, 2023

DC CoMix TTS：一种具有离散编码和混合器合作的端到端表现力语音合成技术

本文提出了一种新的输入表示和简单体系结构，通过引入离散码到参考编码器的输入，利用音频压缩模型的向量量化器来实现改进的韵律建模。在主观和客观评估中证明了该方法的有效性，即离散码作为输入时参考编码器学习更好的说话人无关韵律。

May, 2023

DeCoAR 2.0：具有向量量化的深度语境化声学表示

文章介绍了使用语音表征学习的方法在没有标签的数据上训练语音识别模型的新方法 DeCoAR 2.0。该模型采用 Transformers 编码模型，引入了向量量化层来对语音表征进行训练，并在多个数据稀疏的场景下表现出一致的提高。

Dec, 2020

自回归联合训练用于离散语音表示学习

通过生成模型和信息论的联合训练，实现了对离散语音表示的学习，发现该方法学习的语音表示与语音单元高度相关

Mar, 2022

FunCodec: 一个基础、可重现和可集成的神经语音编解码开源工具包

FunCodec 是一个基于开源语音处理工具 FunASR 的基础神经语音编解码器工具包，提供训练可重现、推理脚本用于最新的神经语音编解码器模型，如 SoundStream 和 Encodec，并且可以轻松集成到下游任务中，如语音识别。其中，还提供预训练模型，可用于学术或一般用途。此工具包还进一步提出了频域编解码器模型 FreqCodec，与其他工具包和发布模型相比，在相同的压缩比下，FunCodec 可以实现更好的重构质量，并且证明预训练模型适用于包括自动语音识别和个性化文本转语音合成在内的下游任务。

Sep, 2023

vq-wav2vec：离散语音表示的自我监督学习

该研究提出了 vq-wav2vec 算法，用于学习音频片段的离散表示，并通过自监督上下文预测任务实现。实验结果表明，BERT 预训练在 TIMIT 音素分类和 WSJ 语音识别方面实现了新的最优结果。

Oct, 2019

零语音 2020 挑战中基于向量量化的神经网络用于语音单元发现

本文提出两种神经模型，均使用向量量化技术将连续特征映射为有限的编码，旨在利用无标签数据学习将语音的音素内容与说话人特定细节分离的离散表述。在 Zero Speech 2020 挑战赛的英语和印度尼西亚语数据上，我们的两个模型都优于 2019 年和 2020 年挑战赛的所有提交，相对提高超过 30%。

May, 2020

来自离散分离自监督表征的语音再合成

使用自监督离散表示来获取可控的语音合成的解耦表征，以及实现在轻量级语音编解码器中更好的语音质量。

Apr, 2021