映射语言:全球语言使用语料库
本文研究了语料库创建决策对大型多语言地理 Web 语料库的影响。通过从 Common Crawl 获取的 4270 亿个词的语料库,使用三种方法改善代表特定语言国家对 (如新西兰英语) 的子语料库质量:(i) 独立语言识别系统的一致性,(ii) 基于哈希的去重,以及 (iii) 特定位置的异常检测。然后,通过使用语料库相似度度量将每个结果语料库与基准数据集进行比较,评估每个步骤对语言级别和国家级别的影响。目标是了解上游数据清理决策对下游语料库的影响,重点关注代表性不足的语言和人口。评估结果表明,每个清理阶段都提高了子语料库的有效性,但这种改进在语言和人口之间分布不均匀。该研究结果显示了标准语料库创建技术可能会无意中排除代表性不足的人口。
Mar, 2024
本研究旨在建立一份当代阿拉伯文语料库,收集了包括 8 个阿拉伯国家 10 个主要新闻来源的报纸文章,共计超过 5 百万篇文章,包含 15 亿个单词,标记了 SGML 和 XML 两种标记语言,并使用 UTF-8 和 Windows CP-1256 两种编码格式。
Nov, 2016
本文通过注册预测任务在 39 种语言中实验了基于频率的语料库相似度测量方法,旨在量化各语言语料库之间的距离和单个语料库的同质性,结果表明这些测量方法可以在不同语系、写作系统和形态类型的情况下保持有效性,并且可以应用于低资源语言和不同的语料库集。
Jun, 2022
研究了自然语言处理中数据可用性对现代 NLP 系统质量的影响,使用实体识别和链接系统,观察了它们的跨语言一致性,并探讨了解释观察到的数据集分布的地理和经济因素。
Dec, 2021
通过采集和分析社交媒体上的英语变种示例,我们旨在解决自然语言处理中的偏见问题。我们将建立一个来自使用非标准英语变种的国家的推文数据集,并提出一个标注框架,通过度量标准英语的程度间接揭示这些推文中英语变种的表现。我们的语料库突出了在西方英语和非西方(即较不标准)英语变种之间的预训练语言识别器准确性差异,并希望为识别和减少自然语言处理中的隐含人口统计差异做出贡献。
Jan, 2024
本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别,该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法,为接下来创建 1,000 种语言的网络文本语料库铺平了道路。
Oct, 2020
这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库,旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外,该语料库还被用于大型阿拉伯语言模型的训练,在对典型的 NLP 任务进行微调时,与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升,据我所知,这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。
Jan, 2022
对印尼本土语言进行案例研究的结果表明,原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质,有助于推广自然语言处理技术到较少研究的语言领域。
Sep, 2023