利用地理参考语料库绘制语言和人口统计图
本文描述了一个基于互联网语言使用的语料库,重点介绍如何利用这个语料库进行数据驱动的语言映射;通过提供有关全球语言使用的信息来支持本地化语种,并且通过对比人口统计学数据和 Twitter 数据来分析数字语言数据代表实际人口的程度。
Apr, 2020
本文研究了语料库创建决策对大型多语言地理 Web 语料库的影响。通过从 Common Crawl 获取的 4270 亿个词的语料库,使用三种方法改善代表特定语言国家对 (如新西兰英语) 的子语料库质量:(i) 独立语言识别系统的一致性,(ii) 基于哈希的去重,以及 (iii) 特定位置的异常检测。然后,通过使用语料库相似度度量将每个结果语料库与基准数据集进行比较,评估每个步骤对语言级别和国家级别的影响。目标是了解上游数据清理决策对下游语料库的影响,重点关注代表性不足的语言和人口。评估结果表明,每个清理阶段都提高了子语料库的有效性,但这种改进在语言和人口之间分布不均匀。该研究结果显示了标准语料库创建技术可能会无意中排除代表性不足的人口。
Mar, 2024
研究了自然语言处理中数据可用性对现代 NLP 系统质量的影响,使用实体识别和链接系统,观察了它们的跨语言一致性,并探讨了解释观察到的数据集分布的地理和经济因素。
Dec, 2021
本研究到了关于文档分类模型公平性评估的现有研究,主要使用无作者人口属性基准事实的合成单语言数据。在该工作中,作者们汇编并发布了一个多语言 Twitter 语料库,用于推断作者的四个人口属性:年龄,国家,性别和种族 / 民族。该语料库涵盖了五种语言:英语、意大利语、波兰语、葡萄牙语和西班牙语。我们使用 Figure Eight 的众包平台评估了推断出的人口属性标签的准确性。为了检查可能引起偏见的因素,我们对英语语料库进行了人口预测的实证分析。我们评估了四种流行文档分类器的性能,并评估了基准分类器在作者级人口属性上的公平性和偏见。
Feb, 2020
本研究使用空间探测任务和地理参考文献,评估了 OPT 和 BLOOM 系列预训练语言模型在代表全球不同人口群体方面的偏见程度。结果显示,这些模型在某些人口群体中表现得更好,而在南亚和东南亚等地的人口群体中则表现较差。分析结果显示,这种偏见不能完全通过社会语言学因素、经济因素或地理因素来解释。因此,本研究的基本结论是,预训练模型不能平等地代表世界人口,存在强烈的地域偏倚。该发现质疑了一种模型适用于所有人口群体的观点。
Mar, 2024
该研究描述了在线空间(即社交媒体语言数据)和真实世界空间(即新西兰的分行政区域)的比较语言生态学初步研究。我们比较了这些不同空间的语言多样性指标,并讨论社交媒体用户如何与真实世界人口保持一致。当前研究的结果表明,有潜力利用在线社交媒体语言数据观察分行政地理区域的语言多样性的时空变化,但需要进一步研究来了解社交媒体如何代表真实世界行为。
Aug, 2023
在本研究中,我们评估了仇恨言论数据集中的文化偏见,通过利用语言和地理两个互相关联的文化代理。我们对八种语言的仇恨言论数据集进行了系统调查,验证了对其英语偏见的先前研究结果,但也显示出这种偏见在过去几年中逐渐减少。对于英语、阿拉伯语和西班牙语这三种地理分布广泛的语言,我们利用推特的地理元数据来近似地理文化背景,通过将语言和国家信息配对。我们发现这些语言的仇恨言论数据集存在强烈的地理文化偏见,相对于在更广泛的社交媒体人口和讲这些语言的人口中的重要性,它们在很大程度上过度代表了少数几个国家(例如,对于英语来说是美国和英国)。基于这些结果,我们提出了创建未来仇恨言论数据集的建议。
Apr, 2024
分析大型语言模型对 Common Crawl 数据集的地理空间数据的利用率,发现 1/5 至 1/6 的文档中包含有经纬度和街道地址等地理空间信息,为进一步研究有关地理空间内容对大型语言模型的影响提供了定量的见解。
Jun, 2024
本文通过注册预测任务在 39 种语言中实验了基于频率的语料库相似度测量方法,旨在量化各语言语料库之间的距离和单个语料库的同质性,结果表明这些测量方法可以在不同语系、写作系统和形态类型的情况下保持有效性,并且可以应用于低资源语言和不同的语料库集。
Jun, 2022