Dict-TTS: 带有先验字典知识的学习发音文本转语音

Jun, 2022

Dict-TTS: 带有先验字典知识的学习发音文本转语音

Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for Text-to-Speech

Ziyue Jiang, Zhe Su, Zhou Zhao, Qian Yang, Yi Ren...

TL;DR本文提出了一种基于语义感知的生成文本到语音模型 Dict-TTS，该模型结合在线网站词典通过 S2PA 处理 module，实现了对多音字消除（polyphone disambiguation）的有效解决，同时提高了 TTS 系统的发音准确性及韵律建模，该模型在三种语言的实验结果显示优于其他基线模型。

Abstract

polyphone disambiguation aims to capture accurate pronunciation knowledge from natural text sequences for reliable Text-to-speech (TTS) systems. However, previous approaches require substantial annotated training data and additional efforts from language experts, making it difficult to

polyphone disambiguation tts systems dict-tts semantic-aware generative text-to-speech model s2pa module

发现论文，激发创造

基于多语言上下文的语音合成中文字发学习

该研究提出了一个多语种统一的前端系统，通过建模语音信息和语言知识，在处理发音相关任务时取得了有竞争力的结果。

Jul, 2023

DTW-SiameseNet：一种用于发音错误检测和更正的动态时间扭曲连锁网络

本研究提出了一种针对 TTS 语音合成任务中的发音错误检测和校正的高精度、适用于 PDA 的发音学习框架，同时还提出了一种基于动态时间规整技术和度量学习的发音错误检测模型 DTW-SiameseNet。结果表明，与基于音素和音频的基线相比，我们的方法平均提高了～6％的发音准确率，并且此方法不受语言和隐私问题的影响。

Mar, 2023

外部知识增强的多音字消歧方法利用大规模语言模型

提出一种解决汉语多音字消歧问题的新方法，该方法基于大型语言模型和提示学习，包括三个模块：检索模块、生成模块和后处理模块。实验结果表明该方法在公共数据集 CPP 上优于现有方法，并对提示模板、训练数据规模和是否引入外部知识进行了实证研究。

Dec, 2023

PolyVoice: 语言模型用于语音翻译

我们提出了 PolyVoice，这是一个基于语言模型的语音 - 语音翻译（S2ST）系统，利用离散化语音单元实现对未书写语言的翻译。在语音合成方面，我们采用现有的 VALL-E X 方法构建基于单元的音频语言模型来保留原始语音的音色特征和语音风格。实验结果表明，我们的系统可以生成高质量翻译和音频质量的语音。

Jun, 2023

面向并行 TTS 前端建模的先验不可知多尺度对比文本 - 音频预训练

在本文中，我们提出了一种名为 TAP-FM 的新型 TTS 前端预测流水线，它包括 Multi-scale Contrastive Text-audio Pre-training（MC-TAP）协议和并行化的 TTS 前端模型，通过在无监督学习中采用多粒度对比预训练来获得更丰富的见解，以及执行 TN、PD 和 PBP 预测任务，实验证明了我们提出方法的卓越性能。

Apr, 2024

计算机辅助发音训练 -- 语音合成几乎是您所需的全部

本研究提出了基于音素到音素转换、文本到语音转换和语音到语音转换三个方法来生成正确发音和发音错误的合成语音，将语音生成作为检测语音发音错误的一流方法，并在检测发音和词汇强调错误的任务中评估了这些技术，证明这些技术不仅提高了三个机器学习模型检测发音错误的准确性，而且还有助于建立该领域的新的技术标准。

Jul, 2022

汉语多音字消歧的多音字 BERT

本文提出一种中文多音字 BERT 模型，通过从 354 个原中文多音字生成 741 个新的中文单音字，再将其添加到预训练的中文 BERT 中，使得多音字消岐任务能够转化为中文多音字 BERT 语言模型的预训练任务。实验结果验证了该模型的有效性，与基于 BERT 的分类器模型相比，该多音字 BERT 模型获得了 2% 的平均准确率提升（从 92.1% 到 94.1%）

Jul, 2022

汉语多音字消歧的回译式数据增强

本文提出了一种基于回译的数据增强方法，采用大量未标注的文本数据来解决中文多音字消歧问题，并设计了一种数据平衡策略来提高训练集中某些典型的多音字字符的识别准确性。

Nov, 2022

TIPAA-SSL: 基于自监督学习和知识迁移的文本无关电话音频对齐

基于音素识别、表示学习和知识迁移，本文提出了一种新颖的文本无关音频对齐方法，利用自监督模型、维度降低模型和基于帧级音素分类器的强制对齐标签来产生多语言语音学表示，取得了优于传统方法的统计指标表现，在语言学习和语音处理系统中有应用意义。

May, 2024

利用自监督表示的鹦鹉 TTS：文本转语音合成

提出一种名为 ParrotTTS 的文本转语音建模的替代方法，该方法基于自监督学习方法。ParrotTTS 采用两步方法，在无标签数据上训练语音到语音模型，然后使用文本到嵌入模型将其扩展到 TTS。该方法在自然度方面取得了有竞争力的平均意见分数，但在转录对和讲话者自适应方面明显优于传统 TTS 模型，并进一步为使用通用训练的自监督学习语音模型训练 TTS 模型铺平了道路。

Mar, 2023