通过使用多位相似语调的多说话者的数据进行训练,并应用数据预处理方法来改善语音质量,表明在较少数据的情况下,通过获取多位相似语调的多说话者的数据来提高 TTS 质量的有效性。
May, 2024
本文介绍了一个基于 Coqui STT 开源工具包的 Luganda 语音语料库的开发,该语料库包含了 155 小时的无线电记录,是撒哈拉以南非洲首个公开无线电数据集,用于在没有社交媒体的社会中识别边缘人群的言语和观点。
Jun, 2022
本文介绍了一种嵌入式的、面向小型物联网应用的 Spoken Language Understanding 系统,并证明其性能可以与基于云的商业解决方案相媲美。同时,我们还提供了我们实验使用的数据集,旨在促进 SLU 社区的可重复性和有益性。
Oct, 2018
本文介绍了一个针对 Luganda 语的 NMT 模型,首次建立 Luganda-English 双语平行语料,并且我们的模型在语言翻译 BLEU 评价中表现出较高的质量,证明为低资源语言建立机器翻译模型的可行性。
Jan, 2023
该研究建立了一个端到端、基于深度神经网络的语音识别模型,用于非洲的低资源语言 Fon 和 Igbo,该研究为 Fon 和 Igbo 提供了有价值的洞见,同时为非洲的其他低资源语言的语音识别模型的创建提供指导。
Mar, 2021
研究探索低资源语言环境下,使用拼音转录进行意图分类的方法构建基于语音理解系统,并发现相较于使用语音特征的系统,使用拼音转录的系统具有显著的分类性能提升。
May, 2022
通过对噪音广播档案的无监督的语音表示学习方法进行调查,我们的贡献包括发布两个数据集到研究社区以及共享受过训练的语音编码器,最终分享了 Maninka、Pular 和 Susu 等语言的首个语音识别模型,为服务于数字鸿沟中穷困落后的人群而提供了一种道路。
Apr, 2021
自动语音识别(ASR)系统是一项关键技术,用于设计各种应用程序,尤其是智能助手,如 Alexa。本文着重于低资源语言 Flemish 的 Intent 分类任务,通过在语音级别和音素转录级别应用不同的数据增强技术,改进了现有模型的性能。
Dec, 2023
本文研究了利用深度神经网络的端到端口语理解模型 (E2E SLU) 在非英语智能家居背景下使用的语言特性,证明了优良的 E2E SLU 表现并不总是需要完美的 ASR 能力,并且 E2E 模型相较于传统管道模型在处理背景噪声和语法变异等方面有更出色的性能。该研究还发现,E2E 模型通过音调信息识别语音命令概念。
Jul, 2022
Zambezi Voice 为挖掘两个不同语音来源的 Zambian 众所周知,首次推出了适用于 Zambian 语言的多语言语音数据集,可用于监督和非监督的学习方法,同时利用 Wav2Vec2.0 模型进行预训练和跨语言迁移学习,构建出基于端到端的语音识别模型。
Jun, 2023