介绍了 Bhinneka Korpus 这一多语种并行语料库,以增强印度尼西亚当地语言资源的获取和利用,并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。
Apr, 2024
本文探讨了发展面向非洲语言的自然语言处理技术所面临的主要语言学和社会政治挑战,提出了基于非洲中心主义的技术开发思路和建议,并介绍了当前的研究、社区、数据集和工具。
Mar, 2022
本文介绍了针对印度尼西亚低资源语言的第一次并行资源开发,包括数据集、多任务基准、词汇表和印度尼西亚 - 英文平行数据集,并描述了创建这些资源的挑战。该研究的目的是激发有关印度尼西亚和其他代表性不足语言的自然语言处理研究。
May, 2022
对印尼本土语言进行案例研究的结果表明,原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质,有助于推广自然语言处理技术到较少研究的语言领域。
Sep, 2023
自然语言处理在机器翻译、新闻分类和问答等高资源语种的任务上取得了显著的性能,但对于低资源语种的机器翻译仍有待改善。本文介绍了 EthioMT,一个包含 15 种语言的新的平行语料库,同时收集了一份更为研究充分的语言在埃塞俄比亚的基准数据集,通过使用变压器和微调方法对 23 种埃塞俄比亚语言的新收集语料和基准数据集进行评估。
Mar, 2024
该研究旨在量化语言资源之间的不平等性,并提出一些方法来改善低资源语言的数据收集,以促进未来的多语言数据发展。
Nov, 2022
总结南部非洲原生非洲语言的自举技术,其中包括使用语法和基于规则的自然语言生成,以及使用比较语言学中的类似度措施,这是进一步研究的肥沃领域。
Oct, 2022
该研究使用公共数据集为 5 种南非语言训练了神经机器翻译模型,并提供了训练和评估模型的代码,旨在促进南非语言领域的未来研究。
Jun, 2019
该研究首次对关注加纳语言的自然语言处理 (NLP) 研究进行了广泛调查,识别了所采用的方法、数据集和技术,并创建了详细的路线图,概述了挑战、最佳实践和未来方向,旨在提高研究人员的可访问性。该工作为加纳的 NLP 研究提供了基础资源,并强调了将全球语言多样性整合到 AI 发展中的重要性。
May, 2024
研究了自然语言处理技术在低资源语言中的应用,提出了用于塞茨瓦纳语和塞班语头条新闻的数据集及其用于新闻主题分类的基线模型,并探索了一种适合低资源语言的数据增强方法以提高分类器性能。
Mar, 2020