基于语义标记预测的两阶段文本到语音的神经转换器

Jan, 2024

基于语义标记预测的两阶段文本到语音的神经转换器

Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction

Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Semin Kim, Joun Yeop Lee...

TL;DR我们提出了一种以神经推导器为中心的新型文本转语音（TTS）框架，将整个 TTS 流程分为语义级序列到序列建模和细粒度声学建模阶段，并利用从 wav2vec2.0 嵌入中获取的离散语义标记。我们采用了一种名为令牌推导器的神经推导器，用于语义标记预测以实现稳健高效的对齐建模，从其固有的硬单调对齐约束中受益。接下来，一个非自回归（NAR）语音生成器从这些语义标记有效地合成波形。此外，参考语音在每个阶段控制时间动态和声学条件。这种解耦的框架降低了 TTS 的训练复杂性，同时使每个阶段能够专注于语义和声学建模。我们在零 - shot 自适应 TTS 上的实验证明，我们的模型在语音质量和说话人相似性方面超过了基准模型，无论是客观上还是主观上。我们还深入探讨了我们方法在推理速度和韵律控制能力方面的优势，突出了神经推导器在 TTS 框架中的潜力。

Abstract

We propose a novel text-to-speech (TTS) framework centered around a neural transducer. Our approach divides the whole TTS pipeline into semantic-level sequence-to-sequence (seq2seq) modeling and fine-grained acoustic mo

text-to-speech neural transducer semantic-level sequence-to-sequence modeling fine-grained acoustic modeling zero-shot adaptive tts

发现论文，激发创造

文本到语音的神经传感器和发声器：基于语义标记预测的方法

基于神经传导器的文本到语音 (TTS) 框架，通过使用从 wav2vec2.0 嵌入中获得的离散语义标记，易于采用神经传导器实现 TTS 框架，从而享受其单调对齐约束；该模型首先通过神经传导器生成对齐的语义标记，然后使用非自回归 (NAR) 语音生成器从语义标记合成语音样本，该分离框架减轻了 TTS 的训练复杂性，使得每个阶段能够分别专注于语言和对齐建模以及细粒度声学建模；在零样本自适应 TTS 上的实验结果表明，通过客观和主观指标，该模型在语音质量和说话人相似度方面超过了基准模型；我们还研究了我们提出的模型的推断速度和语调可控性，展示了神经传导器在 TTS 框架中的潜力。

Nov, 2023

Deep Voice 2: 多说话人神经文本转语音

介绍了一种使用低维度可训练说话人嵌入的神经文本转语音技术，可以从单个模型生成不同的声音，并构建了具有高性能的构建组件：Deep Voice2 和后处理神经语音合成器的 Tacotron，通过两个多说话人 TTS 数据集演示了多说话人语音合成技术。

May, 2017

大规模流式端到端语音翻译基于神经转录器

本文介绍了如何将神经转录器引入流式端到端语音翻译（ST）中，提出了基于注意力池化的 Transformer transducer（TT）模型以及在多语言 ST 中的应用，结果表明 TT 模型不仅显著减少了推理时间，而且在英德翻译上优于基于 ASR 和 MT 的非流式级联 ST。

Apr, 2022

DiscreTalk: 将文本转语音作为机器翻译问题

本文提出了一种基于神经机器翻译 (NMT) 的全自动文本语音 (E2E-TTS) 模型，该模型由非自回归向量量化变分自动编码器 (VQ-VAE) 模型和自回归 Transformer-NMT 模型两部分组成，实验结果表明，该模型在自然度方面表现优异，可与 VQ-VAE 模型的重构相媲美。

May, 2020

语音识别神经转换器的高效训练

本文提出一个高效的 3 阶段渐进训练管道，能够快速利用有限的计算资源训练出接近最新成果性能的转录模型，证明了每个阶段的有效性，并在 Librispeech 和 Switchboard 训练语料库上进行了实验证明。

Apr, 2022

使用 Transformer 神经网络进行语音合成

本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题，在效率和性能方面实现了 state-of-the-art 表现。

Sep, 2018

探索神经传递器用于端到端语音识别

通过实证比较，证明 Seq2Seq 和 RNN-Transducer 模型在不使用语言模型的情况下都优于最佳的 CTC 模型，使得语音识别流程可以纯粹地表述为神经网络操作。我们还研究了编码器架构选择对三个模型性能的影响。

Jul, 2017

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023