验证和探索大规模地理文集

Mar, 2024

Validating and Exploring Large Geographic Corpora

Jonathan Dunn

TL;DR本文研究了语料库创建决策对大型多语言地理 Web 语料库的影响。通过从 Common Crawl 获取的 4270 亿个词的语料库，使用三种方法改善代表特定语言国家对 (如新西兰英语) 的子语料库质量：(i) 独立语言识别系统的一致性，(ii) 基于哈希的去重，以及 (iii) 特定位置的异常检测。然后，通过使用语料库相似度度量将每个结果语料库与基准数据集进行比较，评估每个步骤对语言级别和国家级别的影响。目标是了解上游数据清理决策对下游语料库的影响，重点关注代表性不足的语言和人口。评估结果表明，每个清理阶段都提高了子语料库的有效性，但这种改进在语言和人口之间分布不均匀。该研究结果显示了标准语料库创建技术可能会无意中排除代表性不足的人口。

Abstract

This paper investigates the impact of corpus creation decisions on large multi-lingual geographic web corpora. Beginning with a 427 billion word corpus derived from the Common Crawl, three methods are used to imp

corpus creation multi-lingual geographic web corpora data cleaning language identification under-represented populations

发现论文，激发创造

映射语言：全球语言使用语料库

本文描述了一个基于互联网语言使用的语料库，重点介绍如何利用这个语料库进行数据驱动的语言映射；通过提供有关全球语言使用的信息来支持本地化语种，并且通过对比人口统计学数据和 Twitter 数据来分析数字语言数据代表实际人口的程度。

Apr, 2020

利用地理参考语料库绘制语言和人口统计图

本文通过评估地理信息标注的大型语料库，探究不同数据集在代表人口统计学中的差异性和效果，并发现社交媒体数据在预测语言库存方面比网络数据更准确。

Apr, 2020

一瞥即知质量：对多语言网络爬虫数据集的审计

本文主要旨在探究如何评估及提高多语料库的质量，并针对少资源语言建议相关技术，同时也讨论低质量数据发布所可能带来的潜在风险。

Mar, 2021

低资源语言的语料库品质真的很重要吗？

通过对巴斯克语的表征学习进行案例研究，我们探索了精细爬取作为替代 CommonCrawl 的方法。尽管我们的新语料库质量更高，而且在巴斯克语广泛的语料库中取得了类似的结果，但我们的工作表明，低资源语言的 NLU 性能不是主要受到数据质量的限制，而是与语料库的大小和领域覆盖等其他因素有更重要的关系。

Mar, 2022

地理信息辅助语种识别

通过结合地理信息，本研究开发了一种语言识别方法，形成了 16 个区域模型，覆盖 916 种语言，模型性能得到改善。

Mar, 2024

跨语言语料库相似度度量方法具有较强的鲁棒性

本文通过注册预测任务在 39 种语言中实验了基于频率的语料库相似度测量方法，旨在量化各语言语料库之间的距离和单个语料库的同质性，结果表明这些测量方法可以在不同语系、写作系统和形态类型的情况下保持有效性，并且可以应用于低资源语言和不同的语料库集。

Jun, 2022

语言模型是否关心文本质量？评估跨越 11 种语言的网络爬取语料库

经过评估，我们发现大规模网络爬取的语料库对训练语言模型的质量并不起重要作用。

Mar, 2024

质量确实重要：对网络挖掘平行语料库的质量和实用性的详细研究

我们对两种低资源语言（英语 - 僧伽罗语、英语 - 泰米尔语和僧伽罗语 - 泰米尔语）的网络挖掘语料库的质量进行了详细分析。我们根据相似度度量对每个语料库进行了排序，并对排名的语料库的不同部分进行了内在和外在评估。我们表明，不同部分的网络挖掘语料库之间存在显著的质量差异，而且质量在不同语言和数据集之间存在变化。我们还表明，对于某些网络挖掘数据集，使用最高排名的 25k 部分训练的神经机器翻译（NMT）模型可以与人工策划的数据集媲美。

Feb, 2024

面向多语言大语言模型的平行语料利用方法

通过对平行语料库进行优化，可以提高多语言大型语言模型的性能，研究结果表明，过滤嘈杂的翻译是有效利用平行语料库的关键。

Jun, 2024

NusaWrites：为代表性和极度资源匮乏的语言构建高质量语料库

对印尼本土语言进行案例研究的结果表明，原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质，有助于推广自然语言处理技术到较少研究的语言领域。

Sep, 2023