Oct, 2022
跨低资源非洲语言引导 NLP 工具:概述及前瞻
Bootstrapping NLP tools across low-resourced African languages: an overview and prospects
C. Maria Keet
TL;DR总结南部非洲原生非洲语言的自举技术,其中包括使用语法和基于规则的自然语言生成,以及使用比较语言学中的类似度措施,这是进一步研究的肥沃领域。
Abstract
Computing and Internet access are substantially growing markets in Southern
Africa, which brings with it increasing demands for local content and tools in
indigenous african languages. Since most of those languages are low-resourced,
efforts have gone into the notion of →
发现论文,激发创造
从本地到全球:在非洲语言多样性中的导航
通过评估多种方法的有效性,我们提出了一种修改后的方法来分析处理非洲本地方言的挑战,特别是阿拉伯方言,对于寻求提高客户体验和产品开发的业务来说具有重要的影响。
May, 2023
伊博语 - 英语机器翻译:评估基准
该研究论文介绍了关于自然语言处理在非洲语言的应用的研究进展,指出非洲语言的自然语言处理技术和工具存在落后的现象。在此背景下,作者提出了建立一个 Igbo 语言的机器翻译基准数据集的思路,从而提升非洲语言的自然语言技术水平。
Apr, 2020
面向非洲语言的非洲中心化 NLP:现状与未来
本文探讨了发展面向非洲语言的自然语言处理技术所面临的主要语言学和社会政治挑战,提出了基于非洲中心主义的技术开发思路和建议,并介绍了当前的研究、社区、数据集和工具。
Mar, 2022
极低资源非洲语言的神经机器翻译:巴姆巴拉语案例研究
本文研究了 Bambara 这种低资源语言的机器翻译问题,并提出了处理低资源语言数据稀缺问题的策略。我们还介绍了第一个 Bambara 到英文和法文的机器翻译平行数据集,并且提供了第一个机器翻译 Bambara 的基准结果。
Nov, 2020
构建和扩展印尼本地语言的低资源和代表性平行数据集
介绍了 Bhinneka Korpus 这一多语种并行语料库,以增强印度尼西亚当地语言资源的获取和利用,并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。
Apr, 2024
日耳曼语系低资源语言和方言语料库调查
这篇论文对德国 ic 低资源语言变体的可用语料库进行了系统性调查,发现手工注释的语言资源稀缺,大多数仅涵盖形态和句法,但活跃的研究社区正在不断发展。作者还特意分享了超过 80 个语料库的大概率浏览与查看。
Apr, 2023
NusaWrites:为代表性和极度资源匮乏的语言构建高质量语料库
对印尼本土语言进行案例研究的结果表明,原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质,有助于推广自然语言处理技术到较少研究的语言领域。
Sep, 2023