开放韩国语料库:实用报告
这篇论文对德国 ic 低资源语言变体的可用语料库进行了系统性调查,发现手工注释的语言资源稀缺,大多数仅涵盖形态和句法,但活跃的研究社区正在不断发展。作者还特意分享了超过 80 个语料库的大概率浏览与查看。
Apr, 2023
本文介绍了 Kurdisk Textbooks Corpus (KTC),这是一个包括 31 个 Sorani 方言 K-12 教科书的文本资料库,它经过规范化并按照 12 个教育科目进行分类,包含了 693,800 个单词(110,297 个类型)。我们的资源可在 CC BY-NC-SA 4.0 许可下免费使用。
Sep, 2019
本研究旨在解决少数民族语言技术中面临的数据缺乏问题,提供了从当地新闻网站、当地电台和实地调查这几个角度获取南库尔德语和拉基语的语料库的方法,并探讨了语言识别任务在不同库尔德语言种和扎扎 - 戈拉尼语中的研究。
Apr, 2023
介绍了 Bhinneka Korpus 这一多语种并行语料库,以增强印度尼西亚当地语言资源的获取和利用,并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。
Apr, 2024
对印尼本土语言进行案例研究的结果表明,原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质,有助于推广自然语言处理技术到较少研究的语言领域。
Sep, 2023
本文旨在调查目前免费提供的阿拉伯语语料库和语言资源的列表,并提供各种类别研究的发现和可能获得数据的直接链接。初步结果表明有 66 个来源可供选用,以方便自然语言处理应用的建立。
Feb, 2017
研究了自然语言处理技术在低资源语言中的应用,提出了用于塞茨瓦纳语和塞班语头条新闻的数据集及其用于新闻主题分类的基线模型,并探索了一种适合低资源语言的数据增强方法以提高分类器性能。
Mar, 2020
这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库,在几乎零的资源条件下构建了该语料库,并利用其中的数据完成了口语术语发现。该论文讨论了如何收集,清理和处理数据,并将该数据集提供给社区进行可重现的计算语言文献研究和评估。
Oct, 2017
研究通过对维基百科论坛讨论和对 14 个新手贡献者进行的环境调查,发现在低资源语言贡献者中存在一些问题,如在低资源语言中验证文章的资源匮乏以及语言技术支持(如翻译系统和拼写检查)导致多个错误从而浪费贡献者的时间。希望该研究能够支持设计师使在线知识库对低资源语言使用者更加可访问。
May, 2024