Kencorpus: 一个用于自然语言处理任务的肯尼亚斯瓦希里语、多鲁奥语和卢希亚语语料库

Aug, 2022

Kencorpus: 一个用于自然语言处理任务的肯尼亚斯瓦希里语、多鲁奥语和卢希亚语语料库

Kencorpus: A Kenyan Language Corpus of Swahili, Dholuo and Luhya for Natural Language Processing Tasks

Barack Wanjawa, Lilian Wanzare, Florence Indede, Owen McOnyango, Edward Ombui...

TL;DRKencorpus, the first corpus of its kind for low-resource Indigenous African languages, endeavors to fill the gap in the development of Natural Language Processing and Machine Learning datasets for Swahili, Dholuo, and Luhya languages, enabling text and speech data-driven solutions in applications like machine translation, question-answering, and transcription.

Abstract

indigenous african languages are categorized as under-served in Artificial Intelligence and suffer poor digital inclusivity and information access. The challenge has been how to use machine learning and deep learning models without the requisite data. →

indigenous african languages artificial intelligence kencorpus natural language processing low-resource languages

发现论文，激发创造

KenSwQuAD-- 用于斯瓦希里低资源语言的问答数据集

本研究开发了 Kencorpus Swahili Question Answering Dataset（KenSwQuAD）, 这一包含 7,526 个 QA 组合的数据集（每一个包含至少 5 个 QA 组合的文本都被标注了 QA 组合），证明其对机器理解自然语言很有用。

May, 2022

构建和扩展印尼本地语言的低资源和代表性平行数据集

介绍了 Bhinneka Korpus 这一多语种并行语料库，以增强印度尼西亚当地语言资源的获取和利用，并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。

Apr, 2024

计算语言学文档实验用的极低资源语音语料库

这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库，在几乎零的资源条件下构建了该语料库，并利用其中的数据完成了口语术语发现。该论文讨论了如何收集，清理和处理数据，并将该数据集提供给社区进行可重现的计算语言文献研究和评估。

Oct, 2017

映射语言：全球语言使用语料库

本文描述了一个基于互联网语言使用的语料库，重点介绍如何利用这个语料库进行数据驱动的语言映射；通过提供有关全球语言使用的信息来支持本地化语种，并且通过对比人口统计学数据和 Twitter 数据来分析数字语言数据代表实际人口的程度。

Apr, 2020

Setswana 和 Sepedi 的低资源语言数据集创建、筛选和分类 -- 扩展摘要

研究了自然语言处理技术在低资源语言中的应用，提出了用于塞茨瓦纳语和塞班语头条新闻的数据集及其用于新闻主题分类的基线模型，并探索了一种适合低资源语言的数据增强方法以提高分类器性能。

Mar, 2020

NusaWrites：为代表性和极度资源匮乏的语言构建高质量语料库

对印尼本土语言进行案例研究的结果表明，原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质，有助于推广自然语言处理技术到较少研究的语言领域。

Sep, 2023

Huqariq: 秘鲁原生语言的多语言语音语料库用于语音识别

使用众包方式收集，秘鲁土著语言 Huqariq 语料库收录了 220 小时的多种土著语音频记录，旨在保护濒危语言，可用于开发语音识别、语言识别和语音合成工具，目前收录 4 种土著语，并计划在 2022 年前达到收录 20 种种土著语的目标。

Jul, 2022

AfriWOZ: 利用跨语言可传递性生成低资源非洲语言对话的语料库

本文介绍了针对非洲语言首次提供的高质量对话数据集，并通过深度单语模型 DialoGPT 和 BlenderBot 以及基准模型 seq2seq 对其进行建模，利用重叠度进行效果分析，同时通过人类评估方法验证其有效性，发现深度单语模型可以学习一些泛化跨语言的抽象，人类得分最高的是奈及利亚皮钦英语。

Apr, 2022

BibleTTS：一个大型、高保真、多语种且独特的非洲语音语料库

BibleTTS 是一个由 Open.Bible 项目自 Biblica 发布的圣经记录而来的语音数据集，共有十种撒哈拉以南非洲的语言，为各种语言的文本转语音模型的开发提供了高质量的 48kHz 单人演讲录音素材。

Jul, 2022

Veps 和 Karelian 语言的开放语料库：概述和应用

自 2016 年以来，卡累利阿共和国的巴尔提克 — 芬兰语研究的重要课题之一是语料库语言学的方法和工具，这篇文章介绍了 Karelian Research Centre 的语言学家、数学家和程序员与 VepKar 协作的情况。

Jun, 2022