RepCodec: 一种用于语音分词的语音表示编码器
利用解耦表示学习为基准的特征感知提示编码器,我们提出了 PromptCodec,这是一种创新的端到端神经语音编解码模型,用于高压缩比下确保音频重建的高保真度。PromptCodec 通过整合提示编码器的额外特征表示,可以分配需要处理的语音信息并提高其能力。此外,我们引入了一种简单但有效的自适应特征加权融合方法,用于整合不同编码器的特征,并基于余弦距离提出了一种新颖的解耦表示学习策略以优化 PromptCodec 的编码器,从而进一步提高其性能。在 LibriTTS 上的实验证明,我们提出的 PromptCodec 在不同比特率条件下始终优于最先进的神经语音编解码模型,并在低比特率下取得了令人印象深刻的性能。
Apr, 2024
利用语言模型和音频编解码技术,SemantiCodec 是一种能够以非常低的比特率将各种类型的音频压缩为每秒少于一百个标记的新型编解码器,具有更高的重构质量和更丰富的语义信息。
Apr, 2024
此研究使用 CCRep 方法,通过将代码更改表示为特征向量,学习在多种软件工程任务上使用的高质量的代码更改表示方法。实验结果表明 CCRep 在各任务上表现优异。
Feb, 2023
本文提出了一种新的输入表示和简单体系结构,通过引入离散码到参考编码器的输入,利用音频压缩模型的向量量化器来实现改进的韵律建模。在主观和客观评估中证明了该方法的有效性,即离散码作为输入时参考编码器学习更好的说话人无关韵律。
May, 2023
文章介绍了使用语音表征学习的方法在没有标签的数据上训练语音识别模型的新方法 DeCoAR 2.0。该模型采用 Transformers 编码模型,引入了向量量化层来对语音表征进行训练,并在多个数据稀疏的场景下表现出一致的提高。
Dec, 2020
FunCodec 是一个基于开源语音处理工具 FunASR 的基础神经语音编解码器工具包,提供训练可重现、推理脚本用于最新的神经语音编解码器模型,如 SoundStream 和 Encodec,并且可以轻松集成到下游任务中,如语音识别。其中,还提供预训练模型,可用于学术或一般用途。此工具包还进一步提出了频域编解码器模型 FreqCodec,与其他工具包和发布模型相比,在相同的压缩比下,FunCodec 可以实现更好的重构质量,并且证明预训练模型适用于包括自动语音识别和个性化文本转语音合成在内的下游任务。
Sep, 2023
该研究提出了 vq-wav2vec 算法,用于学习音频片段的离散表示,并通过自监督上下文预测任务实现。实验结果表明,BERT 预训练在 TIMIT 音素分类和 WSJ 语音识别方面实现了新的最优结果。
Oct, 2019
本文提出两种神经模型,均使用向量量化技术将连续特征映射为有限的编码,旨在利用无标签数据学习将语音的音素内容与说话人特定细节分离的离散表述。在 Zero Speech 2020 挑战赛的英语和印度尼西亚语数据上,我们的两个模型都优于 2019 年和 2020 年挑战赛的所有提交,相对提高超过 30%。
May, 2020