学习中文发音而不使用发音词典

EMNLPOct, 2020

Learning to Pronounce Chinese Without a Pronunciation Dictionary

Christopher Chu, Scot Fang, Kevin Knight

TL;DR该研究展示了一种程序，通过非平行的中文字符和拼音音节流建立了一个字符与发音的映射，使用无监督学习方法来有效地将文字转化为语音，其字符到音节的准确率达到了 89%，明显超过以前工作的 22%.

Abstract

We demonstrate a program that learns to pronounce Chinese text in mandarin, without a pronunciation dictionary. From non-parallel streams of Chinese characters and Chinese pinyin syllables, it establishes a many-to-many

chinese pronunciation mandarin unsupervised learning mapping accuracy

发现论文，激发创造

面向现实无文字语言的语音翻译

该论文以英文 - 台湾闽南语为案例，研究了语音到语音的翻译，包括数据收集、建模和基准数据集的发布。通过人工注释、数据自动挖掘以及伪标注方法，收集了大量数据。在模型训练中，结合最近的自监督离散表示的应用以及与福建话相似的普通话文本监督，取得了良好的效果。最后，该论文推出了一个 S2ST 基准数据集，以助于未来的研究。

Nov, 2022

朝向无需发音模型的无监督语音识别

本研究采用不依赖音素词典的新方法，通过仅包含高频英语词汇的语料库，在没有配对语音和文字数据的情况下，实现了近 20% 的词错误率，并证明了基于联合语音到语音和文本到文本的标记填充技术，使得无监督语音识别系统的性能超过了直接分布匹配方法。

Jun, 2024

无平行数据的单词翻译

本文通过无监督的方式对单语词嵌入空间进行对齐，构建两种语言之间的双语词典，旨在为全自动的机器翻译提供潜在影响。实验表明该方法在英语 - 俄语和英语 - 中文等语言对中效果很好，且无需使用字符信息。

Oct, 2017

无监督的普通话 - 粤语机器翻译

本研究探讨了基于无监督机器翻译的普通话和粤语之间的翻译，通过构建包含约 100 万个粤语句子的语料库，以及采用基于字符的分词和 Transformer 架构的模型，实现了最佳的翻译效果。

Jan, 2023

基于 RNN Transducer 的中文普通话语音识别的发音感知唯一字符编码

该研究提出了一种新颖的、基于发音的独特字符编码方法，用于构建基于 E2E RNN-T 的汉语语音识别系统，以克服同音字问题和提取建模单元的困难，实验证明了该方法的有效性。

Jul, 2022

汉语方言语音学的多方言表示学习

本文提供了一种从结构化音韵数据构建知识图谱，并应用于知识库学习中的 BoxE 技术，以获取汉语方言多音节表示的方法。

Jun, 2023

简单而有效的零样本跨语言音素识别

本文通过使用发音特征将多种训练语言的音素映射到目标语言中，对多语言预训练的 wav2vec 2.0 模型进行微调，以在没有标记数据的情况下提高其对未见过的语言的识别能力，并在实验中取得了较优效果。

Sep, 2021

具有非自回归神经机器翻译功能的新型中文方言 TTS 前端

本文提出了一种新颖的中文方言 TTS 前端和翻译模块，用于把标准普通话文本转化为方言表达以提高语音合成的可懂性和自然度。这是首个将翻译与 TTS 前端相结合的工作，使用非自回归神经机器翻译模型和多种技巧，且实验结果在粤语上显示出 2.56 BLEU 和 0.27 MOS 的性能提升。

Jun, 2022

Dict-TTS: 带有先验字典知识的学习发音文本转语音

本文提出了一种基于语义感知的生成文本到语音模型 Dict-TTS，该模型结合在线网站词典通过 S2PA 处理 module，实现了对多音字消除（polyphone disambiguation）的有效解决，同时提高了 TTS 系统的发音准确性及韵律建模，该模型在三种语言的实验结果显示优于其他基线模型。

Jun, 2022

探索汉语拼音在预训练中的应用

探索了在预训练模型中使用拼音的各种方法，并提出了一种名为 PmBERT 的新的预训练方法，通过精细的预训练任务，将字符和拼音表示融合，增强了对同音或近音错误的容错能力。通过全面的实验和消融测试，证明了我们的模型在构建的带噪音数据集和公开的错误校正数据集上相比最先进模型更为稳健。

Oct, 2023