XPhoneBERT：用于文本到语音的音素表征的预训练多语种模型

May, 2023

XPhoneBERT：用于文本到语音的音素表征的预训练多语种模型

XPhoneBERT: A Pre-trained Multilingual Model for Phoneme Representations for Text-to-Speech

Linh The Nguyen, Thinh Pham, Dat Quoc Nguyen

TL;DR本研究介绍了 XPhoneBERT，这是第一个多语种模型，经过预训练学习用于下游文本转语音任务的音素表示。我们使用 RoBERTa 预训练方法对近 100 种语言和地区的 330M 个音素级句子进行了训练。实验结果表明，将 XPhoneBERT 用作输入音素编码器，可以显著提高强神经 TTS 模型的自然度和韵律性，并且有助于在有限的训练数据下产生高质量的语音。我们公开发布了预训练的 XPhoneBERT，希望能促进未来多语言下游 TTS 应用研究。

Abstract

We present xphonebert, the first multilingual model pre-trained to learn phoneme representations for the downstream →

xphonebert multilingual model phoneme representations text-to-speech pre-training approach

发现论文，激发创造

BERTphone: 适用于话语级别的说话人和语言识别的音素感知编码器表示

介绍了 BERTphone，这是一种在大型语音语料库上训练的 Transformer 编码器，可输出具有音素感知上下文表示向量，可用于说话人和语音识别。Bertphone 在 speaker recognition 和 language recognition 任务中表现出类别最佳的效果。

Jun, 2019

Mixed-Phoneme BERT: 用混合音素和超音素表示增强文本到语音的 BERT 模型

本文提出了使用混合音素和超音素表示来增强 BERT 模型的学习能力的 MixedPhoneme BERT，该模型将相邻的音素合并为超音素，并将音素序列和超音素序列组合作为模型输入，从而在文本到语音合成中获得了显着的性能提升并且速度快 3 倍。

Mar, 2022

PhoBERT：越南语预训练语言模型

PhoBERT 是第一个用于越南语的公开大规模单语言模型，实验结果表明，PhoBERT 在多个越南特定的自然语言处理任务中表现优异，胜过最近最好的预训练多语种模型 XLM-R，我们发布了 PhoBERT 以促进未来的越南语自然语言处理研究和下游应用。

Mar, 2020

基于 Phoneme 级别的 BERT 和 Grapheme 预测增强文本转语音的韵律

本研究提出了预训练的基于音素级别的 BERT 编码器，通过预测对应的字母表顺序来提高生成语音的自然度，并在主观评估中证明其在未知范围的文本中相比基于状态的 TTS 模型有显著提高的平均意见评分。

Jan, 2023

多语音预训练中的语言通用语音表示法用于小资源语音识别

本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能，其中采用国际音标（IPA）多语言模型为无标签语音创建帧级伪标签，并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明，该方法在所有目标语言上均优于标准 HuBERT，并且在 3 种语言中表现更佳，同时最多能够节省 1.5k 小时（75%）有监督训练数据。

May, 2023

PnG BERT：基于音素和字素的增强型 BERT 用于神经语音合成

介绍了 PnG BERT，它是一种新的神经 TTS 编码器模型，使用输入的音素和字素表示以及它们之间的单词级对齐来增强原始的 BERT 模型。该模型可以进行自我监督的大型文本语料库的预训练，并通过 TTS 任务进行微调。实验结果表明，使用 PnG BERT 作为编码器进行预训练的神经 TTS 模型产生的语音韵律更自然，发音更准确，比仅使用音素输入而不预训练的基线模型表现更好。主观音频偏好评估表明，听者对使用 PnG BERT 合成的语音和专业演讲者的真实录音之间没有显着的统计差异。

Mar, 2021

Phoneme-BERT: 音素序列和 ASR 转录的联合语言建模

本文提出 PhonemeBERT 模型，利用音素信息和 ASR 转录文本的联合语言模型学习语音感知表示，从而提高 ASR 系统在噪声和领域外数据中的准确性，同时为下游任务提供额外的特征，并在低资源环境下进行了广泛评估，取得了在情感分析、问题分类和意图分类等任务上显著优于目前最好方法的效果。

Feb, 2021

ViSoBERT：用于越南社交媒体文本处理的预训练语言模型

本文介绍了首个用于越南社交媒体文本的单语言预训练语言模型 ViSoBERT，该模型使用 XLM-R 架构，在大规模高质量多样化的越南社交媒体文本语料库上进行预训练，并在越南社交媒体文本的情绪识别、仇恨言论检测、情感分析、垃圾评论检测和仇恨言论跨度检测等五个重要的自然语言下游任务中超越了之前最先进的模型。

Oct, 2023

ViDeBERTa: 一种用于越南语的强大预训练语言模型

本文介绍了 ViDeBERTa，一种新的越南语预训练单语言模型，使用 DeBERTa 架构在大规模高质量多样化的越南文本语料库上进行预训练，取得了在越南特定的自然语言理解任务上比前文献更好的表现，尤其在问答任务上能取得出色的结果。该模型相较于其他预训练语言模型具有更少的参数，其表现非常出色，并且现已提供供大家使用。

Jan, 2023

汉语多音字消歧的多音字 BERT

本文提出一种中文多音字 BERT 模型，通过从 354 个原中文多音字生成 741 个新的中文单音字，再将其添加到预训练的中文 BERT 中，使得多音字消岐任务能够转化为中文多音字 BERT 语言模型的预训练任务。实验结果验证了该模型的有效性，与基于 BERT 的分类器模型相比，该多音字 BERT 模型获得了 2% 的平均准确率提升（从 92.1% 到 94.1%）

Jul, 2022