加纳语言的自然语言处理
该研究首次对关注加纳语言的自然语言处理 (NLP) 研究进行了广泛调查,识别了所采用的方法、数据集和技术,并创建了详细的路线图,概述了挑战、最佳实践和未来方向,旨在提高研究人员的可访问性。该工作为加纳的 NLP 研究提供了基础资源,并强调了将全球语言多样性整合到 AI 发展中的重要性。
May, 2024
此论文调查了埃塞俄比亚的四种语言:阿姆哈拉语、奥罗莫语、提格利尼亚语和沃拉伊塔语的自然语言处理(NLP)的现状,识别了 NLP 研究在埃塞俄比亚的关键挑战和机遇,提供了一个 Github 中央仓库,用于这些语言的各种 NLP 任务的公共资源,该仓库可以定期更新,以及鼓励未来在此领域开展研究的原因。
Mar, 2023
本文探讨了发展面向非洲语言的自然语言处理技术所面临的主要语言学和社会政治挑战,提出了基于非洲中心主义的技术开发思路和建议,并介绍了当前的研究、社区、数据集和工具。
Mar, 2022
mahaNLP 是一个针对马拉地语开发的开源自然语言处理(NLP)库,旨在增强 NLP 领域中对资源匮乏的印度语言马拉地的支持,它是一个易于使用、可扩展和模块化的工具包,基于最先进的 MahaBERT-based transformer 模型进行马拉地文本分析。
Nov, 2023
该论文聚焦于快速技术进步面前土著语言社区的边缘化问题,强调这些语言的文化丰富性以及它们在自然语言处理领域被忽视的风险。我们旨在弥合这些社区与研究人员之间的鸿沟,强调尊重土著社区观点的包容性技术进步的必要性。我们展示了拉丁美洲土著语言在自然语言处理方面的进展,以及涵盖拉丁美洲土著语言现状、它们在自然语言处理中的代表性,以及保护和发展它们所需要的挑战和创新的调查。该论文在理解拉丁美洲土著社区以及一般低资源土著社区的自然语言处理需求和进展方面对当前文献作出了贡献。
Apr, 2024
通过评估多种方法的有效性,我们提出了一种修改后的方法来分析处理非洲本地方言的挑战,特别是阿拉伯方言,对于寻求提高客户体验和产品开发的业务来说具有重要的影响。
May, 2023
本研究提出了第一例为 Twi 或 Akan 开发的预训练变压器语言模型,为命名实体识别、神经机器翻译、情感分析和词性标注等应用领域的进展铺平了道路。通过 ABENA 和 BAKO 等四种不同类型的 BERT 模型,此项研究对 Akuapem 和 Asante 方言的 Twi 语言进行预训练,并通过简单的情感分类示例来展示其使用和开源模型的 Hugging Face 模型库。
Mar, 2021