提格里尼语的大词汇量自由言语识别
本文描述了在 2020 年 6 月非洲机器智能硕士(AMMI)期间启动的一次非正式合作的结果,该合作集中在自动语音识别(ASR)项目上,描述了如何收集数据以及使用少量(1 小时)转录语音作为训练数据如何开发 ASR 系统。在这种低资源条件下,基于大量原始语音的预训练模型对于开发 ASR 系统的效率至关重要。
Mar, 2021
本文旨在利用基于迁移学习框架的端到端语音识别技术,提高孟加拉语的语音识别性能,并在使用仅 1000 个训练样本进行训练的情况下,在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。
Sep, 2022
本研究检验了针对苏丹语方言设计自动语音识别模型的可行性,并使用卷积神经网络设计了一种端到端语音识别模型,该模型在苏丹方言数据集上取得了 73.67% 的平均标签错误率
Dec, 2022
本研究聚焦于低资源非洲语言语音合成,着重于从语料库创作到 TTS 系统的共享和部署,通过参与式方法建立新的数据集和数据挖掘,发现即使在次优环境下录制 25 分钟的语音也能生成可听懂的语音,并为 12 种非洲语言提供了语音数据、代码和训练好的语音以支持研究人员和开发者。
Jul, 2022
该研究提出了一个专门针对孟加拉生物医学数据开发的自动语音识别(ASR)原型系统。该系统针对孟加拉语和西利特语两种重要方言,培训和评估了两个流行的 ASR 框架,旨在为数字健康应用创建可部署的健康领域 ASR 系统,从而提高非技术用户在医疗保健领域的可访问性。
Jun, 2024
提出了一种语音识别流程,可以利用 n-gram 统计信息或原始文本数据集,在没有音频文件的情况下,使用多语种模型构建语音识别流程,并在 1909 种语言上进行了测试。
Sep, 2022
通过微调波形向量预训练模型,并将 N-gram 语言模型作为后处理程序,我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型,并且比现有模型更具有鲁棒性。
Sep, 2022
本研究旨在通过训练系统实现自动持续语音识别,并以瑞典口语为例,使用隐藏马尔可夫模型,利用 SpeechDat 数据库进行参数训练。在这项研究中,声学建模在语音识别应用方面具有一定的普适性,尽管对模型评估仅考虑了一个简化的任务(数字和自然数识别)。研究还测试了不同类型的音素模型,包括独立上下文模型和两种上下文相关模型的变体。同时,还进行了多个使用双字语言模型调整系统参数的实验。研究还检查了在不同说话者子集(性别、年龄和方言)上系统性能的情况,并将结果与先前类似研究进行了对比,显示出明显的改进。
Apr, 2024
通过使用转换编码器 - 解码器体系结构和对现有阿姆哈拉语语音识别测试数据集的修正,我们的研究提高了阿姆哈拉语语音识别系统的语义正确性,实现了 5.5%的字符错误率(CER)和 23.3%的词错误率(WER)。
Apr, 2024