Mixed-Phoneme BERT: 用混合音素和超音素表示增强文本到语音的 BERT 模型

Mar, 2022

Mixed-Phoneme BERT: 用混合音素和超音素表示增强文本到语音的 BERT 模型

Mixed-Phoneme BERT: Improving BERT with Mixed Phoneme and Sup-Phoneme Representations for Text to Speech

Guangyan Zhang, Kaitao Song, Xu Tan, Daxin Tan, Yuzi Yan...

TL;DR本文提出了使用混合音素和超音素表示来增强 BERT 模型的学习能力的 MixedPhoneme BERT，该模型将相邻的音素合并为超音素，并将音素序列和超音素序列组合作为模型输入，从而在文本到语音合成中获得了显着的性能提升并且速度快 3 倍。

Abstract

Recently, leveraging bert pre-training to improve the phoneme encoder in text to speech (TTS) has drawn increasing attention. However, the works apply pre-training with character-based units to enhance the TTS

bert pre-training text to speech phoneme encoder mixedphoneme bert sup-phoneme representations

发现论文，激发创造

PnG BERT：基于音素和字素的增强型 BERT 用于神经语音合成

介绍了 PnG BERT，它是一种新的神经 TTS 编码器模型，使用输入的音素和字素表示以及它们之间的单词级对齐来增强原始的 BERT 模型。该模型可以进行自我监督的大型文本语料库的预训练，并通过 TTS 任务进行微调。实验结果表明，使用 PnG BERT 作为编码器进行预训练的神经 TTS 模型产生的语音韵律更自然，发音更准确，比仅使用音素输入而不预训练的基线模型表现更好。主观音频偏好评估表明，听者对使用 PnG BERT 合成的语音和专业演讲者的真实录音之间没有显着的统计差异。

Mar, 2021

基于 Phoneme 级别的 BERT 和 Grapheme 预测增强文本转语音的韵律

本研究提出了预训练的基于音素级别的 BERT 编码器，通过预测对应的字母表顺序来提高生成语音的自然度，并在主观评估中证明其在未知范围的文本中相比基于状态的 TTS 模型有显著提高的平均意见评分。

Jan, 2023

XPhoneBERT：用于文本到语音的音素表征的预训练多语种模型

本研究介绍了 XPhoneBERT，这是第一个多语种模型，经过预训练学习用于下游文本转语音任务的音素表示。我们使用 RoBERTa 预训练方法对近 100 种语言和地区的 330M 个音素级句子进行了训练。实验结果表明，将 XPhoneBERT 用作输入音素编码器，可以显著提高强神经 TTS 模型的自然度和韵律性，并且有助于在有限的训练数据下产生高质量的语音。我们公开发布了预训练的 XPhoneBERT，希望能促进未来多语言下游 TTS 应用研究。

May, 2023

BERTphone: 适用于话语级别的说话人和语言识别的音素感知编码器表示

介绍了 BERTphone，这是一种在大型语音语料库上训练的 Transformer 编码器，可输出具有音素感知上下文表示向量，可用于说话人和语音识别。Bertphone 在 speaker recognition 和 language recognition 任务中表现出类别最佳的效果。

Jun, 2019

Phoneme-BERT: 音素序列和 ASR 转录的联合语言建模

本文提出 PhonemeBERT 模型，利用音素信息和 ASR 转录文本的联合语言模型学习语音感知表示，从而提高 ASR 系统在噪声和领域外数据中的准确性，同时为下游任务提供额外的特征，并在低资源环境下进行了广泛评估，取得了在情感分析、问题分类和意图分类等任务上显著优于目前最好方法的效果。

Feb, 2021

从预训练深度语言模型到端到端语音合成的迁移学习

本论文研究了通过引入 BERT 模型辅助训练 TTS 模型 Tacotron-2，以缓解高质量语音库的不足问题，并在模型训练中观察到模型收敛更快、结果中无杂音等优点。

Jun, 2019

多语音预训练中的语言通用语音表示法用于小资源语音识别

本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能，其中采用国际音标（IPA）多语言模型为无标签语音创建帧级伪标签，并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明，该方法在所有目标语言上均优于标准 HuBERT，并且在 3 种语言中表现更佳，同时最多能够节省 1.5k 小时（75%）有监督训练数据。

May, 2023

汉语多音字消歧的多音字 BERT

本文提出一种中文多音字 BERT 模型，通过从 354 个原中文多音字生成 741 个新的中文单音字，再将其添加到预训练的中文 BERT 中，使得多音字消岐任务能够转化为中文多音字 BERT 语言模型的预训练任务。实验结果验证了该模型的有效性，与基于 BERT 的分类器模型相比，该多音字 BERT 模型获得了 2% 的平均准确率提升（从 92.1% 到 94.1%）

Jul, 2022

使用预训练字素模型的神经音素转换

本文提出了一种预训练的字形模型 GBERT，通过两种方法将其融合到基于 Transformer 的 G2P 模型中，实验证明了该模型在 SIGMORPHON 2021 G2P 任务的中低资源数据情况下的有效性。

Jan, 2022

语音增强的语言建模用于文本到语音合成

我们提出了一种声学增强的语言建模方法，通过使用语音单元预测中的错误积累来改善 TTS 模型的性能，通过自我监督表示来作为自回归语言模型的训练目标，并采用非自回归模型来预测包含细粒度声学细节的离散声学编解码器，以减少非自回归训练中的错误传播，客观和主观评估验证了我们提出方法的有效性。

Jun, 2024