非洲语言词典和平行数据集的协同构建：初步评估

ACLMar, 2021

非洲语言词典和平行数据集的协同构建：初步评估

Collaborative construction of lexicographic and parallel datasets for African languages: first assessment

Elvis Mboning Tchiaze

TL;DR该研究报告介绍了 NTeALan 协会在非洲语言处理中建立开源平台协作构建词典数据等资源的最新成果。

Abstract

Faced with a considerable lack of resources in african languages to carry out work in natural language processing (NLP), natural language underst

african languages natural language processing natural language understanding artificial intelligence lexicographic data

发现论文，激发创造

构建和扩展印尼本地语言的低资源和代表性平行数据集

介绍了 Bhinneka Korpus 这一多语种并行语料库，以增强印度尼西亚当地语言资源的获取和利用，并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。

Apr, 2024

面向非洲语言的非洲中心化 NLP：现状与未来

本文探讨了发展面向非洲语言的自然语言处理技术所面临的主要语言学和社会政治挑战，提出了基于非洲中心主义的技术开发思路和建议，并介绍了当前的研究、社区、数据集和工具。

Mar, 2022

NusaX：10 种印度尼西亚本地语言的多语言并行情感数据集

本文介绍了针对印度尼西亚低资源语言的第一次并行资源开发，包括数据集、多任务基准、词汇表和印度尼西亚 - 英文平行数据集，并描述了创建这些资源的挑战。该研究的目的是激发有关印度尼西亚和其他代表性不足语言的自然语言处理研究。

May, 2022

NusaWrites：为代表性和极度资源匮乏的语言构建高质量语料库

对印尼本土语言进行案例研究的结果表明，原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质，有助于推广自然语言处理技术到较少研究的语言领域。

Sep, 2023

EthioMT：适用于低资源埃塞俄比亚语言的平行语料库

自然语言处理在机器翻译、新闻分类和问答等高资源语种的任务上取得了显著的性能，但对于低资源语种的机器翻译仍有待改善。本文介绍了 EthioMT，一个包含 15 种语言的新的平行语料库，同时收集了一份更为研究充分的语言在埃塞俄比亚的基准数据集，通过使用变压器和微调方法对 23 种埃塞俄比亚语言的新收集语料和基准数据集进行评估。

Mar, 2024

跨语言数据集构建与必要资源的综述

该研究旨在量化语言资源之间的不平等性，并提出一些方法来改善低资源语言的数据收集，以促进未来的多语言数据发展。

Nov, 2022

跨低资源非洲语言引导 NLP 工具：概述及前瞻

总结南部非洲原生非洲语言的自举技术，其中包括使用语法和基于规则的自然语言生成，以及使用比较语言学中的类似度措施，这是进一步研究的肥沃领域。

Oct, 2022

用于南非语言的神经机器翻译基准测试

该研究使用公共数据集为 5 种南非语言训练了神经机器翻译模型，并提供了训练和评估模型的代码，旨在促进南非语言领域的未来研究。

Jun, 2019

加纳自然语言处理概览：首次观察

该研究首次对关注加纳语言的自然语言处理 (NLP) 研究进行了广泛调查，识别了所采用的方法、数据集和技术，并创建了详细的路线图，概述了挑战、最佳实践和未来方向，旨在提高研究人员的可访问性。该工作为加纳的 NLP 研究提供了基础资源，并强调了将全球语言多样性整合到 AI 发展中的重要性。

May, 2024

Setswana 和 Sepedi 的低资源语言数据集创建、筛选和分类 -- 扩展摘要

研究了自然语言处理技术在低资源语言中的应用，提出了用于塞茨瓦纳语和塞班语头条新闻的数据集及其用于新闻主题分类的基线模型，并探索了一种适合低资源语言的数据增强方法以提高分类器性能。

Mar, 2020