提格里尼语的大词汇量自由言语识别

Oct, 2023

提格里尼语的大词汇量自由言语识别

Large Vocabulary Spontaneous Speech Recognition for Tigrigna

Ataklti Kahsu, Solomon Teferra

TL;DR提出并描述了设计和开发自动识别非特定说话人的提格利尼亚语口语识别系统的研究尝试，使用卡内基梅隆大学自动语音识别开发工具（Sphinx）开发了语音识别系统的声学模型，而使用 SRIM 工具开发了语言模型。

Abstract

This thesis proposes and describes a research attempt at designing and developing a speaker independent spontaneous automatic speech recognition system for →

speaker independent spontaneous automatic speech recognition tigrigna acoustic model language model

发现论文，激发创造

面向非洲语言的大词汇量语音识别：多语言建模和自监督学习

应用多语言模型和自监督学习方法进行预训练和汇集可用数据来提高语音识别质量，为非洲语言建立大词汇量语音识别系统。

Aug, 2022

使用自监督语音表示学习快速开发非洲语言的自动语音识别技术

本文描述了在 2020 年 6 月非洲机器智能硕士（AMMI）期间启动的一次非正式合作的结果，该合作集中在自动语音识别（ASR）项目上，描述了如何收集数据以及使用少量（1 小时）转录语音作为训练数据如何开发 ASR 系统。在这种低资源条件下，基于大量原始语音的预训练模型对于开发 ASR 系统的效率至关重要。

Mar, 2021

基于 Wav2Vec2 和迁移学习的孟加拉语自动语音识别系统

本文旨在利用基于迁移学习框架的端到端语音识别技术，提高孟加拉语的语音识别性能，并在使用仅 1000 个训练样本进行训练的情况下，在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。

Sep, 2022

苏丹方言的端到端自动语音识别模型

本研究检验了针对苏丹语方言设计自动语音识别模型的可行性，并使用卷积神经网络设计了一种端到端语音识别模型，该模型在苏丹方言数据集上取得了 73.67% 的平均标签错误率

Dec, 2022

构建非洲之声

本研究聚焦于低资源非洲语言语音合成，着重于从语料库创作到 TTS 系统的共享和部署，通过参与式方法建立新的数据集和数据挖掘，发现即使在次优环境下录制 25 分钟的语音也能生成可听懂的语音，并为 12 种非洲语言提供了语音数据、代码和训练好的语音以支持研究人员和开发者。

Jul, 2022

孟加拉语生物医学数据的自动语音识别

该研究提出了一个专门针对孟加拉生物医学数据开发的自动语音识别（ASR）原型系统。该系统针对孟加拉语和西利特语两种重要方言，培训和评估了两个流行的 ASR 框架，旨在为数字健康应用创建可部署的健康领域 ASR 系统，从而提高非技术用户在医疗保健领域的可访问性。

Jun, 2024

ASR2K：2 千个左右的语言的语音识别（无需音频）

提出了一种语音识别流程，可以利用 n-gram 统计信息或原始文本数据集，在没有音频文件的情况下，使用多语种模型构建语音识别流程，并在 1909 种语言上进行了测试。

Sep, 2022

Bangla-Wave：利用 N-gram 语言模型提高孟加拉语自动语音识别

通过微调波形向量预训练模型，并将 N-gram 语言模型作为后处理程序，我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型，并且比现有模型更具有鲁棒性。

Sep, 2022

为瑞典自动语音识别系统开发声学模型

本研究旨在通过训练系统实现自动持续语音识别，并以瑞典口语为例，使用隐藏马尔可夫模型，利用 SpeechDat 数据库进行参数训练。在这项研究中，声学建模在语音识别应用方面具有一定的普适性，尽管对模型评估仅考虑了一个简化的任务（数字和自然数识别）。研究还测试了不同类型的音素模型，包括独立上下文模型和两种上下文相关模型的变体。同时，还进行了多个使用双字语言模型调整系统参数的实验。研究还检查了在不同说话者子集（性别、年龄和方言）上系统性能的情况，并将结果与先前类似研究进行了对比，显示出明显的改进。

Apr, 2024

语义修正的阿姆哈拉语自动语音识别

通过使用转换编码器 - 解码器体系结构和对现有阿姆哈拉语语音识别测试数据集的修正，我们的研究提高了阿姆哈拉语语音识别系统的语义正确性，实现了 5.5％的字符错误率（CER）和 23.3％的词错误率（WER）。

Apr, 2024