多语音预训练中的语言通用语音表示法用于小资源语音识别

May, 2023

多语音预训练中的语言通用语音表示法用于小资源语音识别

Language-Universal Phonetic Representation in Multilingual Speech Pretraining for Low-Resource Speech Recognition

Siyuan Feng, Ming Tu, Rui Xia, Chuanzeng Huang, Yuxuan Wang

TL;DR本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能，其中采用国际音标（IPA）多语言模型为无标签语音创建帧级伪标签，并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明，该方法在所有目标语言上均优于标准 HuBERT，并且在 3 种语言中表现更佳，同时最多能够节省 1.5k 小时（75%）有监督训练数据。

Abstract

We improve low-resource asr by integrating the ideas of multilingual training and self-supervised learning. Concretely, we leverage an Int

low-resource asr multilingual training self-supervised learning international phonetic alphabet hubert

发现论文，激发创造

适用于低资源语音识别的语言通用语音编码器

使用国际音标为基础的语言通用的语音模型在多语言音频识别中表现出良好效果，且通过自适应方法在极低资源语言的情况下改进了识别性能。

May, 2023

基于自监督预训练声学模型的多语言零资源语音识别

本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码，实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率，8 种语言的平均错误率为 33.77%。

Oct, 2022

使用音素表示进行低资源语言的零射击跨语言命名实体识别

提出一种基于国际音标的音素表示的零样本跨语言命名实体识别方法，可有效提高低资源语言的性能，并在非拉丁文脚本上表现出很强的鲁棒性。

Jun, 2024

用于口语识别的预训练方法：TalTech 在 OLR 2021 挑战赛中的提交

本文研究了口语语言识别的不同预训练方法，并基于我们在东方语言识别挑战赛 2021 中的提交，参与了有约束和无约束的语言识别的两个任务。我们主要使用 Conformer-based 编码器 - 解码器模型和 XLSR-53 wav2vec2.0 模型作为端到端的系统，这些模型都包含有前置的预训练网络。

May, 2022

Whistle: 数据高效的多语言和跨语音识别模型：通过弱语音监督方法实现

本文研究了预训练与弱语音监督的方法，提出了一种名为 Whistle 的数据有效 MCL-ASR 方法，通过国际音标转写，构建了一个基于 CommonVoice 数据集的实验平台，实验证明基于音素的模型在多语言语音识别中具有更好的性能和高数据效率。

Jun, 2024

简单而有效的零样本跨语言音素识别

本文通过使用发音特征将多种训练语言的音素映射到目标语言中，对多语言预训练的 wav2vec 2.0 模型进行微调，以在没有标记数据的情况下提高其对未见过的语言的识别能力，并在实验中取得了较优效果。

Sep, 2021

UniSpeech: 利用标注和非标注数据进行统一语音表示学习

本文提出了一种名为 UniSpeech 的统一预训练方法，利用有标签和无标签数据学习语音表示，其中针对语音结构的有监督 CTC 学习和语音感知对比自监督学习以多任务学习的方式进行。实验结果表明，UniSpeech 在跨语言表征学习方面的有效性超过了自监督预训练和有监督转移学习。

Jan, 2021

多语言异音字系统的通用手机识别

本研究中，通过建立联合模型来处理语言独立性的音位和语言相关性的音素的分布，改进了语音识别性能，同时可以建立一种 (几乎) 通用的音位识别器，当与 PHOIBLE 大型手动编辑的音位库相结合时，可定制为 2,000 个语言相关的识别器，此识别器可在低资源状况下实现语音识别。

Feb, 2020

多语言自监督和弱监督语音预训练与适应未见语言的比较

本文研究了两个多语言语音模型在适应未见语言上的性能比较，发现模型的预训练数据中包含的语言家族数量和训练时长能预测模型的表现，与预训练方法的差异不相关。

May, 2023

面向非洲次撒哈拉地区的多语言语音表示的非洲中心无监督预训练

我们提出了第一个自我监督的多语种语音模型，该模型 exclusively 在非洲语音上进行训练。该模型利用了将近 60,000 小时的无标签语音片段，覆盖了撒哈拉以南非洲的 21 种语言和方言。在 FLEURS-102 数据集的 SSA 子集上，我们基于 HuBERT$_{base}$ (0.09B) 架构的方法显示出与 FLEURS 基准提出的 w2v-bert-51 (0.6B) 预训练模型相当的竞争力，同时使用 7 倍少的数据和 6 倍少的参数来提升 ASR 下游任务的性能。此外，在 LID 下游任务中，我们的方法比 FLEURS 基线的准确性提高了超过 22%。

Apr, 2024