适用于低资源语音识别的语言通用语音编码器

May, 2023

适用于低资源语音识别的语言通用语音编码器

Language-universal phonetic encoder for low-resource speech recognition

Siyuan Feng, Ming Tu, Rui Xia, Chuanzeng Huang, Yuxuan Wang

TL;DR使用国际音标为基础的语言通用的语音模型在多语言音频识别中表现出良好效果，且通过自适应方法在极低资源语言的情况下改进了识别性能。

Abstract

multilingual training is effective in improving low-resource asr, which may partially be explained by phonetic representation sharing between languages. In end-to-end (E2E) →

multilingual training asr international phonetic alphabet low-resource languages attention encoder-decoder architecture

发现论文，激发创造

多语音预训练中的语言通用语音表示法用于小资源语音识别

本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能，其中采用国际音标（IPA）多语言模型为无标签语音创建帧级伪标签，并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明，该方法在所有目标语言上均优于标准 HuBERT，并且在 3 种语言中表现更佳，同时最多能够节省 1.5k 小时（75%）有监督训练数据。

May, 2023

使用音素表示进行低资源语言的零射击跨语言命名实体识别

提出一种基于国际音标的音素表示的零样本跨语言命名实体识别方法，可有效提高低资源语言的性能，并在非拉丁文脚本上表现出很强的鲁棒性。

Jun, 2024

优化双向跨语言迁移学习：音素识别和音素到字素转换

优化两阶段跨语言迁移学习在低资源语言中的应用，通过改进音素识别和音素到字素转换模型，优化了语音识别跨语言学习过程，合并共享发音特征的音素以增强识别准确性，引入全局音素噪声生成器降低错误传播。在 CommonVoice 12.0 数据集上的实验结果表明，对于低资源语言，我们的方法显著减少了单词误差率（WER），展示了方法的有效性，对于改进低资源语言中的两阶段语音识别系统，提供了潜在的跨语言迁移学习。

Dec, 2023

多语言异音字系统的通用手机识别

本研究中，通过建立联合模型来处理语言独立性的音位和语言相关性的音素的分布，改进了语音识别性能，同时可以建立一种 (几乎) 通用的音位识别器，当与 PHOIBLE 大型手动编辑的音位库相结合时，可定制为 2,000 个语言相关的识别器，此识别器可在低资源状况下实现语音识别。

Feb, 2020

基于流式端到端模型的大规模多语言语音识别

本文介绍了一种使用条件向量和针对语言的适配器层结合的多语言端到端模型，取得了比单语言模型和传统模型都更低的语音识别误差率。

Sep, 2019

低资源多语音声学模型融合的非线性两两语言映射

在多语种语音识别中，为了弥补低资源语言的数据匮乏，人们广泛使用多功能语音识别。本文提出了一种新颖的混合 DNN-HMM 声学模型融合方法，实现了多种低资源语言的跨语音识别，且相对于多功能和单语基线，后验融合得到了 14.65％和 6.5％的相对收益。

Jul, 2022

基于自监督预训练声学模型的多语言零资源语音识别

本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码，实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率，8 种语言的平均错误率为 33.77%。

Oct, 2022

多语种图音融合 ASR 与大规模数据增强

本文介绍了一种单一的基于字形的 ASR 模型，采用标准的混合 BLSTM-HMM 声学模型以及晶格自由 MMI 目标进行学习，能对七种语言进行无歧义的识别，并且比每个单一语言的 ASR 模型表现更佳。同时，我们还评估了多种数据增强的方法，并且展示了这种提出的多语言字素混合 ASR 与各种数据增强不仅能识别任何训练集内的语言，还能大大提高 ASR 性能。

Sep, 2019

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

用单个 Transformer 实现多语言低资源语音端到端识别

本文利用单个 transformer 模型及语言符号，针对低资源语言进行多语言语音识别，相较于 SHL-MLSTM 具有较高的识别精度。

Jun, 2018