CreoleVal 是一个包含 8 种不同自然语言处理任务的基准数据集的集合,涵盖了 28 种克里奥尔语言。通过零 - shot 设置下的基准实验,进一步确定了克里奥尔语言的迁移学习能力和局限性。最终,CreoleVal 的目标是增强克里奥尔语言在自然语言处理和计算语言学方面的研究,为全球克里奥尔语言用户的技术包容做出贡献。
Oct, 2023
本文回顾了 NLP 领域中解决低资源语言问题的先前重要进展,并分析了未来研究方向中的潜在改进。
Jun, 2020
讨论研究者和原住民语音社区成员在开发语言技术以支持濒危语言文档和振兴时所面临的独特技术、文化、实用和伦理挑战,并对未来学术研究者和语言社区利益相关者之间的合作提出建议。
Apr, 2022
这篇论文对德国 ic 低资源语言变体的可用语料库进行了系统性调查,发现手工注释的语言资源稀缺,大多数仅涵盖形态和句法,但活跃的研究社区正在不断发展。作者还特意分享了超过 80 个语料库的大概率浏览与查看。
Apr, 2023
该论文通过对 NLP 领域不同语言间存在的差异进行综合分析,基于现有的说话人口和活力等方面的语言分类,研究数据资源、NLP/CL 研究、多语言网络平台和预训练多语言模型的分布情况,发现许多语言并未被覆盖,同时明显存在差异,对此提出了一些原因和建议。
Oct, 2022
该论文聚焦于快速技术进步面前土著语言社区的边缘化问题,强调这些语言的文化丰富性以及它们在自然语言处理领域被忽视的风险。我们旨在弥合这些社区与研究人员之间的鸿沟,强调尊重土著社区观点的包容性技术进步的必要性。我们展示了拉丁美洲土著语言在自然语言处理方面的进展,以及涵盖拉丁美洲土著语言现状、它们在自然语言处理中的代表性,以及保护和发展它们所需要的挑战和创新的调查。该论文在理解拉丁美洲土著社区以及一般低资源土著社区的自然语言处理需求和进展方面对当前文献作出了贡献。
Apr, 2024
本文介绍了一种基于循环神经网络(RNN)的机器翻译模型,结合次词单元和法语 - 英语语言对培训,提高了 Wolof / 法语对翻译性能。
May, 2023
本文通过考察各种语言在 NLP 会议上的代表情况以及它们之间的资源差异等多方面,旨在呼吁 ACL 社区关注当前语言技术和应用中存在的不平等现象,提高关注和支持那些缺乏资源的语言,推动语言技术和多语言交流的发展。
Apr, 2020
通过采访 17 位在澳大利亚从事或支持土著和 / 或托雷斯海峡岛民社区语言技术项目的研究人员,本文探讨了在为土著语言构建 NLP 技术时的伦理考虑,并建议 NLP 研究人员应关注与土著社区的互动过程,而不仅仅关注去语境的产物。
Feb, 2024
该研究提出了一个系统化的框架,旨在更好地服务于使用自然语言处理系统的用户。该框架考虑了语言和文化之间的区别,以及跨文化和多元文化对 NLP 的影响,并调研了现有的和潜在的策略。
Mar, 2022