KinSPEAK: 通过半监督学习方法改进基尼亚万达语的语音识别

Aug, 2023

KinSPEAK: 通过半监督学习方法改进基尼亚万达语的语音识别

KinSPEAK: Improving speech recognition for Kinyarwanda via semi-supervised learning methods

Antoine Nzeyimana

TL;DR通过自监督预训练、课程表安排进行微调以及利用大规模未标记语音数据的半监督学习，我们展示出在金雅琳达语（Kinyarwanda）的语音识别性能方面的显著提升。我们的方法仅关注使用公共领域数据，在公共网站上收集了一个新的高质量语音数据集，然后用于训练一个干净的基线模型，该模型再用于对来自多样且噪声较大的公共数据集中的示例进行排名，从而定义了一个简单的课程表训练计划。最后，我们采用四代连续的半监督学习方法对大规模未标记数据进行标记和学习。根据我们所知，我们的最终模型在新数据集上的字错率（WER）为 3.2％，在 Mozilla Common Voice 基准上的 WER 为 15.9％，这是目前最先进的。我们的实验还表明，对于金雅琳达语的语音识别性能而言，采用音节而不是字符的分词方法结果更好。

Abstract

Despite recent availability of large transcribed kinyarwanda speech data, achieving robust speech recognition for kinyarwanda is still cha

kinyarwanda speech recognition self-supervised pre-training curriculum schedule semi-supervised learning

发现论文，激发创造

KINLP 在 SemEval-2023 第 12 项任务中：基尼亚隆达语推特情感分析

本文描述了作者参加 SemEval-2023 任务 12 的系统，该系统专注于 Kinyarwanda 语言并使用特定于该语言的模型，使用双层变形金刚体系结构对 Kinyarwanda 语言进行建模，变形金刚模型使用多任务掩码形态预测在大型文本语料库上进行预训练。模型部署在实验平台上，使用户可以在不需要编写机器学习代码的情况下尝试使用预训练的语言模型的微调。我们在比赛中提交的最终结果在 34 支队伍中排名第二，实现了 72.50％的加权 F1 得分。我们对评估结果的分析强调了在完成任务时遇到的挑战，并确定了改进的方向。

Apr, 2023

半监督学习在自动语音识别中的极限挑战

该研究采用半监督学习、自动语音识别和噪声模型训练等技术提高 LibriSpeech 数据集的识别准确率，最终实现了 1.4%/2.6% 的识别误差，相比当前最先进水平 1.7%/ 3.3%，表现出显著的提升。

Oct, 2020

面向非洲语言的大词汇量语音识别：多语言建模和自监督学习

应用多语言模型和自监督学习方法进行预训练和汇集可用数据来提高语音识别质量，为非洲语言建立大词汇量语音识别系统。

Aug, 2022

语音翻译的大规模自监督和半监督学习

通过利用大量未标记的语音和文本数据（包括 Libri-Light 语音音频语料库和 CommonCrawl 语言建模）的预训练和自我训练，我们的实验结果表明，在不利用监督学习数据的前提下，通过 wav2vec 2.0 预训练、自我训练和配合语言模型的方法，能够使所有四个 CoVoST 2 语言对的 BLEU 平均值提高 2.6。代码和模型将公开发布。

Apr, 2021

借助辅助数据监督提高小型足迹的少样本关键词识别

使用未标记的朗读语音数据作为辅助来源，我们提出了一个框架，通过自动注释和过滤数据来构建类似于关键词的数据集，利用多任务学习来提高模型的表示能力，从而显著提高了少样本关键词检测模型性能。

Aug, 2023

KINNEWS 和 KIRNEWS：为 Kinyarwanda 和 Kirundi 进行跨语言文本分类基准测试

本文提出了两个用于 Kinyarwanda 和 Kirundi 两种低资源非洲语言新闻文章的多类分类的数据集 (KINNEWS 和 KIRNEWS)，并通过实验展示训练较高资源的 Kinyarwanda 能够成功的进行跨语言转移至 Kirundi。这些数据集除了可以被用于文本分类，还可被用于解决跨语言学习、表示学习、语法分析、词性标注和命名实体识别等自然语言处理问题。

Oct, 2020

使用自监督语音表示学习快速开发非洲语言的自动语音识别技术

本文描述了在 2020 年 6 月非洲机器智能硕士（AMMI）期间启动的一次非正式合作的结果，该合作集中在自动语音识别（ASR）项目上，描述了如何收集数据以及使用少量（1 小时）转录语音作为训练数据如何开发 ASR 系统。在这种低资源条件下，基于大量原始语音的预训练模型对于开发 ASR 系统的效率至关重要。

Mar, 2021

通过自监督预训练实现噪声鲁棒的关键词检测

使用自我监督学习（SSL）预训练算法 Data2Vec 可以提高关键词识别（KWS）模型在嘈杂环境下的鲁棒性。

Mar, 2024

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

端到端语音识别的自训练

本文探讨了自我训练在端到端语音识别中的应用，并展示给出了使用伪标签训练深度学习模型的方法，经过实验证明了该方法可以大幅提高基准模型的准确率，通过使用语音和语言模型生成伪标签和一些序列到序列模型的过滤机制，并采用新颖的集成方法提高伪标签的多样性，实验结果表明，在噪声语音环境下，使用自我训练的集成模型可以相对于只使用 100 小时标记数据的基准模型，使字错率（WER）提高了 33.9％；在清晰语音环境下，自我训练可以弥补基准模型和理想模型之间相对提高了至少 93.8％的差距。

Sep, 2019