利用地理参考语料库绘制语言和人口统计图

Apr, 2020

利用地理参考语料库绘制语言和人口统计图

Mapping Languages and Demographics with Georeferenced Corpora

Jonathan Dunn, Ben Adams

TL;DR本文通过评估地理信息标注的大型语料库，探究不同数据集在代表人口统计学中的差异性和效果，并发现社交媒体数据在预测语言库存方面比网络数据更准确。

Abstract

This paper evaluates large georeferenced corpora, taken from both web-crawled and social media sources, against ground-truth population an

georeferenced corpora population demographics language-census dataset social media web-crawled

发现论文，激发创造

映射语言：全球语言使用语料库

本文描述了一个基于互联网语言使用的语料库，重点介绍如何利用这个语料库进行数据驱动的语言映射；通过提供有关全球语言使用的信息来支持本地化语种，并且通过对比人口统计学数据和 Twitter 数据来分析数字语言数据代表实际人口的程度。

Apr, 2020

验证和探索大规模地理文集

本文研究了语料库创建决策对大型多语言地理 Web 语料库的影响。通过从 Common Crawl 获取的 4270 亿个词的语料库，使用三种方法改善代表特定语言国家对 (如新西兰英语) 的子语料库质量：(i) 独立语言识别系统的一致性，(ii) 基于哈希的去重，以及 (iii) 特定位置的异常检测。然后，通过使用语料库相似度度量将每个结果语料库与基准数据集进行比较，评估每个步骤对语言级别和国家级别的影响。目标是了解上游数据清理决策对下游语料库的影响，重点关注代表性不足的语言和人口。评估结果表明，每个清理阶段都提高了子语料库的有效性，但这种改进在语言和人口之间分布不均匀。该研究结果显示了标准语料库创建技术可能会无意中排除代表性不足的人口。

Mar, 2024

数据集地理：将语言数据映射到语言使用者

研究了自然语言处理中数据可用性对现代 NLP 系统质量的影响，使用实体识别和链接系统，观察了它们的跨语言一致性，并探讨了解释观察到的数据集分布的地理和经济因素。

Dec, 2021

用于评估仇恨言论识别中人口统计偏见的多语 Twitter 语料库和基准

本研究到了关于文档分类模型公平性评估的现有研究，主要使用无作者人口属性基准事实的合成单语言数据。在该工作中，作者们汇编并发布了一个多语言 Twitter 语料库，用于推断作者的四个人口属性：年龄，国家，性别和种族 / 民族。该语料库涵盖了五种语言：英语、意大利语、波兰语、葡萄牙语和西班牙语。我们使用 Figure Eight 的众包平台评估了推断出的人口属性标签的准确性。为了检查可能引起偏见的因素，我们对英语语料库进行了人口预测的实证分析。我们评估了四种流行文档分类器的性能，并评估了基准分类器在作者级人口属性上的公平性和偏见。

Feb, 2020

预训练语言模型对某些地理人群的表现优于其他人群

本研究使用空间探测任务和地理参考文献，评估了 OPT 和 BLOOM 系列预训练语言模型在代表全球不同人口群体方面的偏见程度。结果显示，这些模型在某些人口群体中表现得更好，而在南亚和东南亚等地的人口群体中则表现较差。分析结果显示，这种偏见不能完全通过社会语言学因素、经济因素或地理因素来解释。因此，本研究的基本结论是，预训练模型不能平等地代表世界人口，存在强烈的地域偏倚。该发现质疑了一种模型适用于所有人口群体的观点。

Mar, 2024

地理信息辅助语种识别

通过结合地理信息，本研究开发了一种语言识别方法，形成了 16 个区域模型，覆盖 916 种语言，模型性能得到改善。

Mar, 2024

比较社交媒体语言数据和人口普查数据在次国家地理区域上的语言多样性测量

该研究描述了在线空间（即社交媒体语言数据）和真实世界空间（即新西兰的分行政区域）的比较语言生态学初步研究。我们比较了这些不同空间的语言多样性指标，并讨论社交媒体用户如何与真实世界人口保持一致。当前研究的结果表明，有潜力利用在线社交媒体语言数据观察分行政地理区域的语言多样性的时空变化，但需要进一步研究来了解社交媒体如何代表真实世界行为。

Aug, 2023

从语言到地理：评估仇恨言论数据集中的文化偏见

在本研究中，我们评估了仇恨言论数据集中的文化偏见，通过利用语言和地理两个互相关联的文化代理。我们对八种语言的仇恨言论数据集进行了系统调查，验证了对其英语偏见的先前研究结果，但也显示出这种偏见在过去几年中逐渐减少。对于英语、阿拉伯语和西班牙语这三种地理分布广泛的语言，我们利用推特的地理元数据来近似地理文化背景，通过将语言和国家信息配对。我们发现这些语言的仇恨言论数据集存在强烈的地理文化偏见，相对于在更广泛的社交媒体人口和讲这些语言的人口中的重要性，它们在很大程度上过度代表了少数几个国家（例如，对于英语来说是美国和英国）。基于这些结果，我们提出了创建未来仇恨言论数据集的建议。

Apr, 2024

在 Common Crawl 语料库中量化地理空间

分析大型语言模型对 Common Crawl 数据集的地理空间数据的利用率，发现 1/5 至 1/6 的文档中包含有经纬度和街道地址等地理空间信息，为进一步研究有关地理空间内容对大型语言模型的影响提供了定量的见解。

Jun, 2024

跨语言语料库相似度度量方法具有较强的鲁棒性

本文通过注册预测任务在 39 种语言中实验了基于频率的语料库相似度测量方法，旨在量化各语言语料库之间的距离和单个语料库的同质性，结果表明这些测量方法可以在不同语系、写作系统和形态类型的情况下保持有效性，并且可以应用于低资源语言和不同的语料库集。

Jun, 2022