非自回归实时音调转换模型与语音克隆

May, 2024

非自回归实时音调转换模型与语音克隆

Non-autoregressive real-time Accent Conversion model with voice cloning

Vladimir Nechaev, Sergey Kosyakov

TL;DR我们开发了一种实时语音转换模型，具备母语感、最小延迟生成和多样性切换音色、性别和语音口音的能力，从而提高语音质量，增强现有 ASR 系统的识别性能，并适用于实时多用户通信场景。

Abstract

Currently, the development of foreign accent conversion (FAC) models utilizes deep neural network architectures, as well as ensembles of neural networks for speech recognition and speech generation. The use of th

foreign accent conversion deep neural network real-time accent conversion voice cloning speech enhancement

发现论文，激发创造

评估无真实标注数据的外语口音转换方法

外语口音转换是声音转换的一个特殊应用，通过使用序列到序列模型和非平行语音转换模型，本研究评估了三种无需真实参考数据的外语口音转换方法，发现在所有评估指标上，没有一种方法明显优于其他方法。

Sep, 2023

保留语音特征的零 - shot 多音系转换

研究使用对抗学习来实现口音转换，能够将说话者的声音身份保留下来，并可将未知说话者的话语转换为多种口音，主观评估显示该模型生成更接近目标口音且类似于原说话者的音频。

Nov, 2022

用于自动语音识别的合成跨口音数据增强

本研究旨在改进口音转换模型，通过加入声学知识，提高模型对不同口音发音的准确性，采用生成数据训练 ASR 系统，实验结果表明，合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解，但不能推广到未见口音及纯母语模型上。

Mar, 2023

使用非平行数据将从 TTS 中转移的语言表示进行口音转换

该研究提出了一种新颖的非自回归框架用于口音转换，通过学习口音无关的语言表示并使用它们来转换源语音中的口音，从而保留说话者的身份。研究还调查了在我们提出的框架中的本地数据和不同声学特征的预训练策略的有效性，并使用主客观度量来全面评估了我们方法的性能。评估结果突出了预训练策略和丰富的语义特征的益处，显著提高了音频质量和可理解性。

Jan, 2024

无需口音特定 TTS 前端的低资源口音建模

提出了一种利用语音转换技术和多人多口音 TTS 模型生成不同方言口音的方法，能够实现在没有专门的 TTS 前端系统的情况下，对低资源区域口音进行语音合成。

Jan, 2023

跨口音语音识别上的快速适应学习

研究了方言对同一语言单词发音的影响，提出了一种基于模型对抗元学习算法的跨方言英语语音识别任务，通过实验表明该方法显著优于联合训练。

Mar, 2020

利用多层次 VAE 和对抗训练进行的文本转语音口音转化

提出了一种利用多级变分自编码器与对抗学习的文本转语音模型，用于解决语音合成和转换中的口音问题，以期构建更具包容性的系统。通过客观评价指标和主观听觉测试对性能进行评估，结果表明与基线相比，口音转换能力有所提高。

Jun, 2024

深度伪造语音的实时检测

生成式人工智能在语音领域有着重要的隐私和道德威胁，该研究通过生成了 DEEP-VOICE 数据集，并利用机器学习模型进行统计分析和超参数优化，最终实现了 99.3% 的准确分类，并能够实时检测 AI 生成的语音。

Aug, 2023

使用少量样本的神经语音克隆

本文针对少量音频样本的情况，提出了一种基于神经网络的语音克隆系统，通过训练来进行说话人的自适应和编码，实现语音的自然性和相似度，适用于低资源系统的使用。

Feb, 2018

FastLTS: 无自回归端到端无约束唇语到语音合成

提出了一种基于 transformer 的视觉前端的快速非自回归模型 FastLTS，可以从任意姿态和词汇的肢体语言视频中进行高质量音频合成，比当前的自回归模型在 3 秒输入序列上实现了 19.76 倍的速度提升，并获得了更好的音频质量。

Jul, 2022