文本到语音的神经传感器和发声器：基于语义标记预测的方法

Nov, 2023

文本到语音的神经传感器和发声器：基于语义标记预测的方法

Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic Token Prediction

Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Dongjune Lee, Nam Soo Kim

TL;DR基于神经传导器的文本到语音 (TTS) 框架，通过使用从 wav2vec2.0 嵌入中获得的离散语义标记，易于采用神经传导器实现 TTS 框架，从而享受其单调对齐约束；该模型首先通过神经传导器生成对齐的语义标记，然后使用非自回归 (NAR) 语音生成器从语义标记合成语音样本，该分离框架减轻了 TTS 的训练复杂性，使得每个阶段能够分别专注于语言和对齐建模以及细粒度声学建模；在零样本自适应 TTS 上的实验结果表明，通过客观和主观指标，该模型在语音质量和说话人相似度方面超过了基准模型；我们还研究了我们提出的模型的推断速度和语调可控性，展示了神经传导器在 TTS 框架中的潜力。

Abstract

We introduce a text-to-speech(TTS) framework based on a neural transducer. We use discretized semantic tokens acquired from wav2vec2.0 embeddings

text-to-speech neural transducer wav2vec2.0 embeddings non-autoregressive speech generator zero-shot adaptive tts

发现论文，激发创造

基于语义标记预测的两阶段文本到语音的神经转换器

我们提出了一种以神经推导器为中心的新型文本转语音（TTS）框架，将整个 TTS 流程分为语义级序列到序列建模和细粒度声学建模阶段，并利用从 wav2vec2.0 嵌入中获取的离散语义标记。我们采用了一种名为令牌推导器的神经推导器，用于语义标记预测以实现稳健高效的对齐建模，从其固有的硬单调对齐约束中受益。接下来，一个非自回归（NAR）语音生成器从这些语义标记有效地合成波形。此外，参考语音在每个阶段控制时间动态和声学条件。这种解耦的框架降低了 TTS 的训练复杂性，同时使每个阶段能够专注于语义和声学建模。我们在零 - shot 自适应 TTS 上的实验证明，我们的模型在语音质量和说话人相似性方面超过了基准模型，无论是客观上还是主观上。我们还深入探讨了我们方法在推理速度和韵律控制能力方面的优势，突出了神经推导器在 TTS 框架中的潜力。

Jan, 2024

DiscreTalk: 将文本转语音作为机器翻译问题

本文提出了一种基于神经机器翻译 (NMT) 的全自动文本语音 (E2E-TTS) 模型，该模型由非自回归向量量化变分自动编码器 (VQ-VAE) 模型和自回归 Transformer-NMT 模型两部分组成，实验结果表明，该模型在自然度方面表现优异，可与 VQ-VAE 模型的重构相媲美。

May, 2020

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

大规模流式端到端语音翻译基于神经转录器

本文介绍了如何将神经转录器引入流式端到端语音翻译（ST）中，提出了基于注意力池化的 Transformer transducer（TT）模型以及在多语言 ST 中的应用，结果表明 TT 模型不仅显著减少了推理时间，而且在英德翻译上优于基于 ASR 和 MT 的非流式级联 ST。

Apr, 2022

Deep Voice 2: 多说话人神经文本转语音

介绍了一种使用低维度可训练说话人嵌入的神经文本转语音技术，可以从单个模型生成不同的声音，并构建了具有高性能的构建组件：Deep Voice2 和后处理神经语音合成器的 Tacotron，通过两个多说话人 TTS 数据集演示了多说话人语音合成技术。

May, 2017

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

深度之声：实时神经文本转语音

Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统，由五个主要组成部分构成，包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建，既简单又灵活。此外，我们通过优化后的 WaveNet 推断内核，实现了 400 倍的实时速度。

Feb, 2017

具有发音感知嵌入的语音自动识别转换器

该论文提出了具有发音感知嵌入的转录器（PET）。通过在文本令牌中具有相同或相似发音的标记中引入共享组件，PET 模型的解码器嵌入不同于传统转录器，其解码器嵌入根据共同的发音特征进行训练。我们在中文和韩文的多个数据集上进行的实验证明，与传统转录器相比，PET 模型始终提高了语音识别的准确性。我们的研究还揭示了一个错误链反应的现象。与将识别错误均匀分布在一个说话过程中不同，识别错误往往会聚集在一起，后续错误经常跟随先前错误的发生。我们的分析表明，PET 模型通过显著降低在先前错误后生成额外错误的可能性有效减轻了这个问题。我们的实现将与 NeMo 工具包一起开源。

Apr, 2024

神经语音合成调查

本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Jun, 2021

用于端到端语音识别模型的文本适应的快速准确因式分解神经转录器

介绍了因文本数据处理能力有限而提出的 FNT 模型及其在语音识别领域中的存在意义，并提出了多种方法来优化模型性能，使用这些方法后，相比于标准 FNT 模型，模型的错误率下降了 9.48%。

Dec, 2022