Guylingo: 圭亞那克里奧爾語語料庫

ACLMay, 2024

Guylingo: The Republic of Guyana Creole Corpora

Christopher Clarke, Roland Daynauth, Charlene Wilkinson, Hubert Devonish, Jason Mars

TL;DR通过 Guylingo 语料库，本文研究了加勒比海地区的克里奥尔语（Guyanese English-lexicon Creole），强调了在资源匮乏的语言环境下，自然语言处理对于克里奥尔语的挑战和发展机遇。

Abstract

While major languages often enjoy substantial attention and resources, the linguistic diversity across the globe encompasses a multitude of smaller, indigenous, and regional languages that lack the same level of computational support. One such region is the →

linguistic diversity caribbean creolese nlp research creole languages

发现论文，激发创造

克里奥尔人想要什么，克里奥尔人需要什么

本文探讨了低资源语言社区中克里奥尔语言的需要，发现不同的语言社区对语言技术的需求存在巨大差异，并强调没有社区参与是无法构建有用的语言技术的。

Jun, 2022

Kreyòl-MT: 构建拉美、加勒比和殖民地非洲克里奥尔语的机器翻译系统

对于学术研究长期以来忽视的克里奥尔语言，我们提供了到目前为止最大的克里奥尔语机器翻译累积数据集，包括 14.5M 句独特的克里奥尔语句子和平行翻译，其中公开发布的有 11.6M 个；此外，我们还提供了支持 172 个翻译方向的 41 种克里奥尔语言的机器翻译模型，利用这个多样化的数据集，我们的模型在 23 个翻译方向的 34 个中超过了一种专门用于克里奥尔语的模型。

May, 2024

JamPatoisNLI: 一份牙买加克里奥尔语自然语言推理数据集

JamPatoisNLI 是第一个为一种克里奥尔语提供自然语言推理数据集的项目，是探索从大型单语或多语预训练模型进行跨语言转移的有效性的独特工具，因此它是向一个传统上被忽视的语言进行研究并了解跨语言自然语言处理的有用基准。

Dec, 2022

CreoleVal：克里奥尔语的多语言多任务基准

CreoleVal 是一个包含 8 种不同自然语言处理任务的基准数据集的集合，涵盖了 28 种克里奥尔语言。通过零 - shot 设置下的基准实验，进一步确定了克里奥尔语言的迁移学习能力和局限性。最终，CreoleVal 的目标是增强克里奥尔语言在自然语言处理和计算语言学方面的研究，为全球克里奥尔语言用户的技术包容做出贡献。

Oct, 2023

声音未听到：为约鲁巴地区方言提供的自然语言处理资源和模型

用高质量的平行文本和语音语料库 (YORÙLECT) 跨三个领域和四个地区的尼日利亚约鲁巴语方言开展研究实验，结果表明，标准尼日利亚约鲁巴语和其他方言在机器翻译、自动语音识别和语音到文本翻译等任务中存在明显的差异，在方言自适应微调的情况下，能够缩小这一差距，该研究为尼日利亚约鲁巴语及其方言以及其他非洲语言的自然语言处理工具的发展做出了重要贡献。

Jun, 2024

加纳自然语言处理概览：首次观察

该研究首次对关注加纳语言的自然语言处理 (NLP) 研究进行了广泛调查，识别了所采用的方法、数据集和技术，并创建了详细的路线图，概述了挑战、最佳实践和未来方向，旨在提高研究人员的可访问性。该工作为加纳的 NLP 研究提供了基础资源，并强调了将全球语言多样性整合到 AI 发展中的重要性。

May, 2024

朝着更好的包容性：一种多样化的英语方言推文语料库

通过采集和分析社交媒体上的英语变种示例，我们旨在解决自然语言处理中的偏见问题。我们将建立一个来自使用非标准英语变种的国家的推文数据集，并提出一个标注框架，通过度量标准英语的程度间接揭示这些推文中英语变种的表现。我们的语料库突出了在西方英语和非西方（即较不标准）英语变种之间的预训练语言识别器准确性差异，并希望为识别和减少自然语言处理中的隐含人口统计差异做出贡献。

Jan, 2024

映射语言：全球语言使用语料库

本文描述了一个基于互联网语言使用的语料库，重点介绍如何利用这个语料库进行数据驱动的语言映射；通过提供有关全球语言使用的信息来支持本地化语种，并且通过对比人口统计学数据和 Twitter 数据来分析数字语言数据代表实际人口的程度。

Apr, 2020

日耳曼语系低资源语言和方言语料库调查

这篇论文对德国 ic 低资源语言变体的可用语料库进行了系统性调查，发现手工注释的语言资源稀缺，大多数仅涵盖形态和句法，但活跃的研究社区正在不断发展。作者还特意分享了超过 80 个语料库的大概率浏览与查看。

Apr, 2023

地理信息辅助语种识别

通过结合地理信息，本研究开发了一种语言识别方法，形成了 16 个区域模型，覆盖 916 种语言，模型性能得到改善。

Mar, 2024