Guylingo: 圭亞那克里奧爾語語料庫
对于学术研究长期以来忽视的克里奥尔语言,我们提供了到目前为止最大的克里奥尔语机器翻译累积数据集,包括 14.5M 句独特的克里奥尔语句子和平行翻译,其中公开发布的有 11.6M 个;此外,我们还提供了支持 172 个翻译方向的 41 种克里奥尔语言的机器翻译模型,利用这个多样化的数据集,我们的模型在 23 个翻译方向的 34 个中超过了一种专门用于克里奥尔语的模型。
May, 2024
JamPatoisNLI 是第一个为一种克里奥尔语提供自然语言推理数据集的项目,是探索从大型单语或多语预训练模型进行跨语言转移的有效性的独特工具,因此它是向一个传统上被忽视的语言进行研究并了解跨语言自然语言处理的有用基准。
Dec, 2022
CreoleVal 是一个包含 8 种不同自然语言处理任务的基准数据集的集合,涵盖了 28 种克里奥尔语言。通过零 - shot 设置下的基准实验,进一步确定了克里奥尔语言的迁移学习能力和局限性。最终,CreoleVal 的目标是增强克里奥尔语言在自然语言处理和计算语言学方面的研究,为全球克里奥尔语言用户的技术包容做出贡献。
Oct, 2023
用高质量的平行文本和语音语料库 (YORÙLECT) 跨三个领域和四个地区的尼日利亚约鲁巴语方言开展研究实验,结果表明,标准尼日利亚约鲁巴语和其他方言在机器翻译、自动语音识别和语音到文本翻译等任务中存在明显的差异,在方言自适应微调的情况下,能够缩小这一差距,该研究为尼日利亚约鲁巴语及其方言以及其他非洲语言的自然语言处理工具的发展做出了重要贡献。
Jun, 2024
该研究首次对关注加纳语言的自然语言处理 (NLP) 研究进行了广泛调查,识别了所采用的方法、数据集和技术,并创建了详细的路线图,概述了挑战、最佳实践和未来方向,旨在提高研究人员的可访问性。该工作为加纳的 NLP 研究提供了基础资源,并强调了将全球语言多样性整合到 AI 发展中的重要性。
May, 2024
通过采集和分析社交媒体上的英语变种示例,我们旨在解决自然语言处理中的偏见问题。我们将建立一个来自使用非标准英语变种的国家的推文数据集,并提出一个标注框架,通过度量标准英语的程度间接揭示这些推文中英语变种的表现。我们的语料库突出了在西方英语和非西方(即较不标准)英语变种之间的预训练语言识别器准确性差异,并希望为识别和减少自然语言处理中的隐含人口统计差异做出贡献。
Jan, 2024
本文描述了一个基于互联网语言使用的语料库,重点介绍如何利用这个语料库进行数据驱动的语言映射;通过提供有关全球语言使用的信息来支持本地化语种,并且通过对比人口统计学数据和 Twitter 数据来分析数字语言数据代表实际人口的程度。
Apr, 2020
这篇论文对德国 ic 低资源语言变体的可用语料库进行了系统性调查,发现手工注释的语言资源稀缺,大多数仅涵盖形态和句法,但活跃的研究社区正在不断发展。作者还特意分享了超过 80 个语料库的大概率浏览与查看。
Apr, 2023