Luganda 语音意图识别用于物联网应用

ICLRMay, 2024

Luganda 语音意图识别用于物联网应用

Luganda Speech Intent Recognition for IoT Applications

Andrew Katumba, Sudi Murindanyi, John Trevor Kasule, Elvis Mugume

TL;DR该研究项目旨在为物联网应用开发一种 Luganda 语音意图分类系统，从而将当地语言纳入智能家居环境中。

Abstract

The advent of internet of things (IoT) technology has generated massive interest in voice-controlled smart homes. While many voice-controlled smart home systems are designed to understand and support widely spoke

internet of things voice-controlled smart homes luganda speech intent classification natural language processing

发现论文，激发创造

利用众包数据构建一种卢干达语文字转语音模型

通过使用多位相似语调的多说话者的数据进行训练，并应用数据预处理方法来改善语音质量，表明在较少数据的情况下，通过获取多位相似语调的多说话者的数据来提高 TTS 质量的有效性。

May, 2024

Makerere Radio Speech Corpus: 适用于自动语音识别的 Ganda 无线电语料库

本文介绍了一个基于 Coqui STT 开源工具包的 Luganda 语音语料库的开发，该语料库包含了 155 小时的无线电记录，是撒哈拉以南非洲首个公开无线电数据集，用于在没有社交媒体的社会中识别边缘人群的言语和观点。

Jun, 2022

边缘上的口语理解

本文介绍了一种嵌入式的、面向小型物联网应用的 Spoken Language Understanding 系统，并证明其性能可以与基于云的商业解决方案相媲美。同时，我们还提供了我们实验使用的数据集，旨在促进 SLU 社区的可重复性和有益性。

Oct, 2018

在卢干达语和英语之间构建平行语料库和训练翻译模型

本文介绍了一个针对 Luganda 语的 NMT 模型，首次建立 Luganda-English 双语平行语料，并且我们的模型在语言翻译 BLEU 评价中表现出较高的质量，证明为低资源语言建立机器翻译模型的可行性。

Jan, 2023

OkwuGbé: Fon 和 Igbo 的端到端语音识别

该研究建立了一个端到端、基于深度神经网络的语音识别模型，用于非洲的低资源语言 Fon 和 Igbo，该研究为 Fon 和 Igbo 提供了有价值的洞见，同时为非洲的其他低资源语言的语音识别模型的创建提供指导。

Mar, 2021

构建低资源语言口语理解系统

研究探索低资源语言环境下，使用拼音转录进行意图分类的方法构建基于语音理解系统，并发现相较于使用语音特征的系统，使用拼音转录的系统具有显著的分类性能提升。

May, 2022

利用无线电存档进行低资源语音识别：面向文盲用户的智能虚拟助手

通过对噪音广播档案的无监督的语音表示学习方法进行调查，我们的贡献包括发布两个数据集到研究社区以及共享受过训练的语音编码器，最终分享了 Maninka、Pular 和 Susu 等语言的首个语音识别模型，为服务于数字鸿沟中穷困落后的人群而提供了一种道路。

Apr, 2021

在超低资源环境下创建口语对话系统

自动语音识别（ASR）系统是一项关键技术，用于设计各种应用程序，尤其是智能助手，如 Alexa。本文着重于低资源语言 Flemish 的 Intent 分类任务，通过在语音级别和音素转录级别应用不同的数据增强技术，改进了现有模型的性能。

Dec, 2023

端到端口语理解：低资源环境下语音命令任务的性能分析

本文研究了利用深度神经网络的端到端口语理解模型 (E2E SLU) 在非英语智能家居背景下使用的语言特性，证明了优良的 E2E SLU 表现并不总是需要完美的 ASR 能力，并且 E2E 模型相较于传统管道模型在处理背景噪声和语法变异等方面有更出色的性能。该研究还发现，E2E 模型通过音调信息识别语音命令概念。

Jul, 2022

赞比西之声：赞比亚语言的多语言语音语料库

Zambezi Voice 为挖掘两个不同语音来源的 Zambian 众所周知，首次推出了适用于 Zambian 语言的多语言语音数据集，可用于监督和非监督的学习方法，同时利用 Wav2Vec2.0 模型进行预训练和跨语言迁移学习，构建出基于端到端的语音识别模型。

Jun, 2023