CPU 上的低延迟实时语音转换

Nov, 2023

Low-latency Real-time Voice Conversion on CPU

Konstantine Sadov, Matthew Hutter, Asara Near

TL;DR我们将之前的音频处理和生成神经网络的结构应用于实时的多对一声音转换任务中，得到了具有低延迟和低资源使用的模型 LLVC（低延迟低资源声音转换），在 16kHz 比特率下延迟不到 20 毫秒，在消费级 CPU 上运行速度接近实时的 2.8 倍。LLVC 采用了生成对抗网络和知识蒸馏的结构来实现这种性能，据我们所知，LLVC 是开源声音转换模型中资源使用和延迟最低的。我们在 https://URL 提供开源样本、代码和预训练模型权重。

Abstract

We adapt the architectures of previous audio manipulation and generation neural networks to the task of real-time any-to-one voice conversion

audio manipulation voice conversion neural networks low-latency low-resource

发现论文，激发创造

StreamVC 实时低延迟音频转换

StreamVC 是一种流式语音转换解决方案，它能在保留源语音的内容和语调的同时，匹配任意目标语音的音色。与先前的方法不同，StreamVC 能在移动平台上以低延迟从输入信号生成结果波形，从而适用于实时通信场景，如电话和视频会议，并解决这些场景中的语音匿名化等问题。

Jan, 2024

ALO-VC：任意低延迟单次语音转换

本文提出了基于语音后验图的非并行低延迟单次语音转换方法 ALO-VC，采用预训练说话人编码器、语调预测器和位置编码器结合的混合信号处理和机器学习管道，提供两个系统版本，均可在单个 CPU 核心上部署并达到与非因果基线系统相当的性能。

Jun, 2023

高质量流媒体语音合成低，句子长度无关的延迟

本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统，使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成，实验结果显示，该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟，并且能够生成几乎自然的高质量语音。

Nov, 2021

使用 LPCNet 的高质量轻量化和可适应的语音合成技术

本研究提出了一种轻量级的适应性神经 TTS 系统，采用三个单独的神经网络块来实现韵律预测、声学特征预测和线性预测编码神经声码器，性能接近自然语音合成，同时在标准 CPU 上实时性能比真实速度快 3 倍，系统的模块化设置使得可适应新的语音，只需要少量的数据，在大量实验中展示了系统的高质量和适应性，提高了 0.12 的质量差距和 3% 的相似性差距，可适应未见的声音和性别的合成。

May, 2019

Voice Filter: 基于语音转换后处理模块的少样本文本转语音说话人自适应

本文提出一种极低资源语音合成方法 Voice Filter，它只需要使用目标发言人的一分钟语音，采用基于声音转换（VC）的后处理模块来增强现有的高质量 TTS 系统，成功地解决了低资源 TTS 系统训练中的质量和可理解性降低的问题，并将少样本 TTS 问题视为 VC 任务。此外，本文还提出使用一种持续可控的 TTS 系统创建平行语音语料库以促进 VC 任务。结果表明，Voice Filter 在多个基于大量语音数据声音的客观和主观度量上表现优异。

Feb, 2022

谁是真实的讲者

探索利用深度学习技术进行声音转换，识别原始说话者的可行性，通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性，并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。

Apr, 2024

逐步提升语音识别和语音转换

本论文中，我们提出了一种新颖的迭代方法，用于同时提高自动语音识别模型和语音转换模型。我们在低数据资源情况下，通过使用语音转换模型作为数据增强方法来进一步微调 ASR 模型，从而实验性地展示了两个模型的性能提高。

May, 2023

通向通用文本指导的语音转换

这篇论文介绍了一种新颖的语音转换（VC）模型，它由文本指令引导，比如 “以慢速和低沉的音调清晰地说话” 或 “以开朗少年的声音说话”。与传统方法依赖于参考话语来确定转换语音的属性不同，我们的模型为语音转换增加了多样性和特定性。提出的 VC 模型是一种神经编解码语言模型，处理离散代码序列，生成转换语音的代码序列。它利用文本指令作为风格提示来修改给定语音的韵律和情感信息。与以往的方法相比，我们的模型以端到端的方式处理语音的各种信息，而不再依赖于使用不同的编码器来处理源语音的韵律和内容等不同方面。实验证明了我们的模型在理解指令并产生合理结果方面的令人印象深刻的能力。

Sep, 2023

StarGAN-ZSVC：低资源环境下的零样本语音转换

本文提出了一个基于生成性对抗网络的语音转换模型，该模型可以在零阶设置下使用未见过的讲话者，并且在实时或更快的速度下运行，与其他语音转换技术相比，该模型在小量数据的零阶设置下表现优异。

May, 2021

非自回归实时音调转换模型与语音克隆

我们开发了一种实时语音转换模型，具备母语感、最小延迟生成和多样性切换音色、性别和语音口音的能力，从而提高语音质量，增强现有 ASR 系统的识别性能，并适用于实时多用户通信场景。

May, 2024