Allophant:带有发音属性的跨语言音素识别
本研究中,通过建立联合模型来处理语言独立性的音位和语言相关性的音素的分布,改进了语音识别性能,同时可以建立一种 (几乎) 通用的音位识别器,当与 PHOIBLE 大型手动编辑的音位库相结合时,可定制为 2,000 个语言相关的识别器,此识别器可在低资源状况下实现语音识别。
Feb, 2020
本研究使用零样本学习的方法解决语言无训练数据情况下语音转写的挑战,将语音音素分解成相应的发音属性,结合定制的声学模型,实现对目标语言中未知音素的识别,评估结果表明,该方法比传统多语言模型的平均音素误差率提高了 7.7%。
Feb, 2020
本文通过使用发音特征将多种训练语言的音素映射到目标语言中,对多语言预训练的 wav2vec 2.0 模型进行微调,以在没有标记数据的情况下提高其对未见过的语言的识别能力,并在实验中取得了较优效果。
Sep, 2021
优化两阶段跨语言迁移学习在低资源语言中的应用,通过改进音素识别和音素到字素转换模型,优化了语音识别跨语言学习过程,合并共享发音特征的音素以增强识别准确性,引入全局音素噪声生成器降低错误传播。在 CommonVoice 12.0 数据集上的实验结果表明,对于低资源语言,我们的方法显著减少了单词误差率(WER),展示了方法的有效性,对于改进低资源语言中的两阶段语音识别系统,提供了潜在的跨语言迁移学习。
Dec, 2023
这篇论文介绍了一种包含 115 多种不同语系的细粒度音素转录的大规模多语言语音语料库。基于这个多语言数据集,我们提出了 CLAP-IPA,这是一种能够在语音信号和音素转录的关键词或任意短语之间进行开放词汇匹配的多语言音素语音对比嵌入模型。所提出的模型已在 97 种未见过的语言中的两个实地语音语料库上进行了测试,展示了跨语言的强大泛化能力。与基于文本的模型相比,使用音素作为建模单位比正字文本具有更好的跨语言泛化能力。
Nov, 2023
本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能,其中采用国际音标(IPA)多语言模型为无标签语音创建帧级伪标签,并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明,该方法在所有目标语言上均优于标准 HuBERT,并且在 3 种语言中表现更佳,同时最多能够节省 1.5k 小时(75%)有监督训练数据。
May, 2023
我们提出了 PhoneXL 框架,通过使用音素转录作为传统的正字转录之外的附加语言模态,以缓解不同书写脚本语言之间的差距,同时释放出首个音素 - 正字对齐数据集,并展示了音素转录提供了关键信息,能够增强 CJKV 语言之间的跨语言传输,从而在跨语言标记级任务上实现持续改进。
Jul, 2023
本文研究了如何在没有任何语言学知识的情况下,以单语、多语和跨语言的方式构建从未见过的语言的电话清单,并对 13 种语言进行了交叉语言分析,发现少数普遍的电话标记可在跨语言中很好地识别,但独特的声音、类似的声音和语调语言仍然是语音清单发现的主要障碍。
Jan, 2022
本文研究一种可转移的音位嵌入框架,旨在解决少样本跨语言语音合成问题。在 8 分钟以下数据提供的极少样本情况下,作者提出了包括基于音位 TTS 模型和码本模块在内的框架。通过利用音位级平均的自我监督学习特征,实现了合成语音质量的有效改进。实验证明,使用 30 秒左右数据就能够合成出可理解的说话声音。
Jun, 2022
通过使用来自发音矢量而非语音学单元的嵌入来学习跨语言的音素表示,结合语言无关的元学习,使得我们只需要 30 分钟的语音数据即可在以前从未见过的语言中,通过微调高质量的文本转语音模型,并由以前未见过的发言者发音。
Mar, 2022