映射语言：全球语言使用语料库

Apr, 2020

Mapping Languages: The Corpus of Global Language Use

Jonathan Dunn

TL;DR本文描述了一个基于互联网语言使用的语料库，重点介绍如何利用这个语料库进行数据驱动的语言映射；通过提供有关全球语言使用的信息来支持本地化语种，并且通过对比人口统计学数据和 Twitter 数据来分析数字语言数据代表实际人口的程度。

Abstract

This paper describes a web-based corpus of global language use with a focus on how this corpus can be used for data-driven language mapping. First, the corpus provides a representation of where national varieties

web-based corpus language mapping language identification digital language data demographic data

发现论文，激发创造

利用地理参考语料库绘制语言和人口统计图

本文通过评估地理信息标注的大型语料库，探究不同数据集在代表人口统计学中的差异性和效果，并发现社交媒体数据在预测语言库存方面比网络数据更准确。

Apr, 2020

验证和探索大规模地理文集

本文研究了语料库创建决策对大型多语言地理 Web 语料库的影响。通过从 Common Crawl 获取的 4270 亿个词的语料库，使用三种方法改善代表特定语言国家对 (如新西兰英语) 的子语料库质量：(i) 独立语言识别系统的一致性，(ii) 基于哈希的去重，以及 (iii) 特定位置的异常检测。然后，通过使用语料库相似度度量将每个结果语料库与基准数据集进行比较，评估每个步骤对语言级别和国家级别的影响。目标是了解上游数据清理决策对下游语料库的影响，重点关注代表性不足的语言和人口。评估结果表明，每个清理阶段都提高了子语料库的有效性，但这种改进在语言和人口之间分布不均匀。该研究结果显示了标准语料库创建技术可能会无意中排除代表性不足的人口。

Mar, 2024

地理信息辅助语种识别

通过结合地理信息，本研究开发了一种语言识别方法，形成了 16 个区域模型，覆盖 916 种语言，模型性能得到改善。

Mar, 2024

15 亿词的阿拉伯语语料库

本研究旨在建立一份当代阿拉伯文语料库，收集了包括 8 个阿拉伯国家 10 个主要新闻来源的报纸文章，共计超过 5 百万篇文章，包含 15 亿个单词，标记了 SGML 和 XML 两种标记语言，并使用 UTF-8 和 Windows CP-1256 两种编码格式。

Nov, 2016

跨语言语料库相似度度量方法具有较强的鲁棒性

本文通过注册预测任务在 39 种语言中实验了基于频率的语料库相似度测量方法，旨在量化各语言语料库之间的距离和单个语料库的同质性，结果表明这些测量方法可以在不同语系、写作系统和形态类型的情况下保持有效性，并且可以应用于低资源语言和不同的语料库集。

Jun, 2022

数据集地理：将语言数据映射到语言使用者

研究了自然语言处理中数据可用性对现代 NLP 系统质量的影响，使用实体识别和链接系统，观察了它们的跨语言一致性，并探讨了解释观察到的数据集分布的地理和经济因素。

Dec, 2021

朝着更好的包容性：一种多样化的英语方言推文语料库

通过采集和分析社交媒体上的英语变种示例，我们旨在解决自然语言处理中的偏见问题。我们将建立一个来自使用非标准英语变种的国家的推文数据集，并提出一个标注框架，通过度量标准英语的程度间接揭示这些推文中英语变种的表现。我们的语料库突出了在西方英语和非西方（即较不标准）英语变种之间的预训练语言识别器准确性差异，并希望为识别和减少自然语言处理中的隐含人口统计差异做出贡献。

Jan, 2024

野外语言识别：通往千语言网络文本语料库的挑战

本研究重点讨论了大型文本语料库在自然语言处理任务中的重要性以及在多语言语境下收集这些数据集所需的核心技术 —— 自动语言识别，该文介绍了使用基于词表的精度可调过滤器和基于 Transformer 的半监督语言识别模型来提高数据集质量的方法，为接下来创建 1,000 种语言的网络文本语料库铺平了道路。

Oct, 2020

面向语言建模的大规模多样化阿拉伯语语料库

这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库，旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外，该语料库还被用于大型阿拉伯语言模型的训练，在对典型的 NLP 任务进行微调时，与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升，据我所知，这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。

Jan, 2022

NusaWrites：为代表性和极度资源匮乏的语言构建高质量语料库

对印尼本土语言进行案例研究的结果表明，原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质，有助于推广自然语言处理技术到较少研究的语言领域。

Sep, 2023