学习中文发音而不使用发音词典
该论文以英文 - 台湾闽南语为案例,研究了语音到语音的翻译,包括数据收集、建模和基准数据集的发布。通过人工注释、数据自动挖掘以及伪标注方法,收集了大量数据。在模型训练中,结合最近的自监督离散表示的应用以及与福建话相似的普通话文本监督,取得了良好的效果。最后,该论文推出了一个 S2ST 基准数据集,以助于未来的研究。
Nov, 2022
本研究采用不依赖音素词典的新方法,通过仅包含高频英语词汇的语料库,在没有配对语音和文字数据的情况下,实现了近 20% 的词错误率,并证明了基于联合语音到语音和文本到文本的标记填充技术,使得无监督语音识别系统的性能超过了直接分布匹配方法。
Jun, 2024
本文通过无监督的方式对单语词嵌入空间进行对齐,构建两种语言之间的双语词典,旨在为全自动的机器翻译提供潜在影响。实验表明该方法在英语 - 俄语和英语 - 中文等语言对中效果很好,且无需使用字符信息。
Oct, 2017
本研究探讨了基于无监督机器翻译的普通话和粤语之间的翻译,通过构建包含约 100 万个粤语句子的语料库,以及采用基于字符的分词和 Transformer 架构的模型,实现了最佳的翻译效果。
Jan, 2023
该研究提出了一种新颖的、基于发音的独特字符编码方法,用于构建基于 E2E RNN-T 的汉语语音识别系统,以克服同音字问题和提取建模单元的困难,实验证明了该方法的有效性。
Jul, 2022
本文通过使用发音特征将多种训练语言的音素映射到目标语言中,对多语言预训练的 wav2vec 2.0 模型进行微调,以在没有标记数据的情况下提高其对未见过的语言的识别能力,并在实验中取得了较优效果。
Sep, 2021
本文提出了一种新颖的中文方言 TTS 前端和翻译模块,用于把标准普通话文本转化为方言表达以提高语音合成的可懂性和自然度。这是首个将翻译与 TTS 前端相结合的工作,使用非自回归神经机器翻译模型和多种技巧,且实验结果在粤语上显示出 2.56 BLEU 和 0.27 MOS 的性能提升。
Jun, 2022
本文提出了一种基于语义感知的生成文本到语音模型 Dict-TTS,该模型结合在线网站词典通过 S2PA 处理 module,实现了对多音字消除(polyphone disambiguation)的有效解决,同时提高了 TTS 系统的发音准确性及韵律建模,该模型在三种语言的实验结果显示优于其他基线模型。
Jun, 2022
探索了在预训练模型中使用拼音的各种方法,并提出了一种名为 PmBERT 的新的预训练方法,通过精细的预训练任务,将字符和拼音表示融合,增强了对同音或近音错误的容错能力。通过全面的实验和消融测试,证明了我们的模型在构建的带噪音数据集和公开的错误校正数据集上相比最先进模型更为稳健。
Oct, 2023