适用于低资源语音识别的语言通用语音编码器
本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能,其中采用国际音标(IPA)多语言模型为无标签语音创建帧级伪标签,并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明,该方法在所有目标语言上均优于标准 HuBERT,并且在 3 种语言中表现更佳,同时最多能够节省 1.5k 小时(75%)有监督训练数据。
May, 2023
优化两阶段跨语言迁移学习在低资源语言中的应用,通过改进音素识别和音素到字素转换模型,优化了语音识别跨语言学习过程,合并共享发音特征的音素以增强识别准确性,引入全局音素噪声生成器降低错误传播。在 CommonVoice 12.0 数据集上的实验结果表明,对于低资源语言,我们的方法显著减少了单词误差率(WER),展示了方法的有效性,对于改进低资源语言中的两阶段语音识别系统,提供了潜在的跨语言迁移学习。
Dec, 2023
本研究中,通过建立联合模型来处理语言独立性的音位和语言相关性的音素的分布,改进了语音识别性能,同时可以建立一种 (几乎) 通用的音位识别器,当与 PHOIBLE 大型手动编辑的音位库相结合时,可定制为 2,000 个语言相关的识别器,此识别器可在低资源状况下实现语音识别。
Feb, 2020
在多语种语音识别中,为了弥补低资源语言的数据匮乏,人们广泛使用多功能语音识别。 本文提出了一种新颖的混合 DNN-HMM 声学模型融合方法,实现了多种低资源语言的跨语音识别,且相对于多功能和单语基线,后验融合得到了 14.65%和 6.5%的相对收益。
Jul, 2022
本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码,实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率,8 种语言的平均错误率为 33.77%。
Oct, 2022
本文介绍了一种单一的基于字形的 ASR 模型,采用标准的混合 BLSTM-HMM 声学模型以及晶格自由 MMI 目标进行学习,能对七种语言进行无歧义的识别,并且比每个单一语言的 ASR 模型表现更佳。同时,我们还评估了多种数据增强的方法,并且展示了这种提出的多语言字素混合 ASR 与各种数据增强不仅能识别任何训练集内的语言,还能大大提高 ASR 性能。
Sep, 2019
本文介绍了一种基于序列到序列的正常语音识别模型,它适用于 9 种不同的印度语言,并通过训练语言特定的字形集合,将这些语言联合起来训练模型以提高其性能。
Nov, 2017
本文利用单个 transformer 模型及语言符号,针对低资源语言进行多语言语音识别,相较于 SHL-MLSTM 具有较高的识别精度。
Jun, 2018