开放韩国语料库：实用报告

EMNLPDec, 2020

Open Korean Corpora: A Practical Report

Won Ik Cho, Sangwhan Moon, Youngsook Song

TL;DR本文介绍了韩语语料库的资源开发、开放数据集以及为促进低资源语言的研究提出了开源数据集的构建和发布方向。

Abstract

korean is often referred to as a low-resource language in the research community. While this claim is partially true, it is also because the availability of resources is inadequately advertised and curated. This work curates and reviews a list of →

korean corpora resource development open datasets less-resourced languages

发现论文，激发创造

日耳曼语系低资源语言和方言语料库调查

这篇论文对德国 ic 低资源语言变体的可用语料库进行了系统性调查，发现手工注释的语言资源稀缺，大多数仅涵盖形态和句法，但活跃的研究社区正在不断发展。作者还特意分享了超过 80 个语料库的大概率浏览与查看。

Apr, 2023

开发少资源语言的细粒度语料库：以库尔德语为例

本文介绍了 Kurdisk Textbooks Corpus (KTC)，这是一个包括 31 个 Sorani 方言 K-12 教科书的文本资料库，它经过规范化并按照 12 个教育科目进行分类，包含了 693,800 个单词（110,297 个类型）。我们的资源可在 CC BY-NC-SA 4.0 许可下免费使用。

Sep, 2019

低资源语言技术语料库构建方法研究：以南库尔德语和拉基语为例

本研究旨在解决少数民族语言技术中面临的数据缺乏问题，提供了从当地新闻网站、当地电台和实地调查这几个角度获取南库尔德语和拉基语的语料库的方法，并探讨了语言识别任务在不同库尔德语言种和扎扎 - 戈拉尼语中的研究。

Apr, 2023

构建和扩展印尼本地语言的低资源和代表性平行数据集

介绍了 Bhinneka Korpus 这一多语种并行语料库，以增强印度尼西亚当地语言资源的获取和利用，并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。

Apr, 2024

NusaWrites：为代表性和极度资源匮乏的语言构建高质量语料库

对印尼本土语言进行案例研究的结果表明，原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质，有助于推广自然语言处理技术到较少研究的语言领域。

Sep, 2023

自由获取的阿拉伯语语料库的关键调查

本文旨在调查目前免费提供的阿拉伯语语料库和语言资源的列表，并提供各种类别研究的发现和可能获得数据的直接链接。初步结果表明有 66 个来源可供选用，以方便自然语言处理应用的建立。

Feb, 2017

Setswana 和 Sepedi 的低资源语言数据集创建、筛选和分类 -- 扩展摘要

研究了自然语言处理技术在低资源语言中的应用，提出了用于塞茨瓦纳语和塞班语头条新闻的数据集及其用于新闻主题分类的基线模型，并探索了一种适合低资源语言的数据增强方法以提高分类器性能。

Mar, 2020

计算语言学文档实验用的极低资源语音语料库

这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库，在几乎零的资源条件下构建了该语料库，并利用其中的数据完成了口语术语发现。该论文讨论了如何收集，清理和处理数据，并将该数据集提供给社区进行可重现的计算语言文献研究和评估。

Oct, 2017

低资源语言与在线知识库：一项需求调研研究

研究通过对维基百科论坛讨论和对 14 个新手贡献者进行的环境调查，发现在低资源语言贡献者中存在一些问题，如在低资源语言中验证文章的资源匮乏以及语言技术支持（如翻译系统和拼写检查）导致多个错误从而浪费贡献者的时间。希望该研究能够支持设计师使在线知识库对低资源语言使用者更加可访问。

May, 2024

一瞥即知质量：对多语言网络爬虫数据集的审计

本文主要旨在探究如何评估及提高多语料库的质量，并针对少资源语言建议相关技术，同时也讨论低质量数据发布所可能带来的潜在风险。

Mar, 2021