量化攻击性语言分类器的地理表现差异

COLINGSep, 2022

量化攻击性语言分类器的地理表现差异

Measuring Geographic Performance Disparities of Offensive Language Classifiers

Brandon Lwowski, Paul Rad, Anthony Rios

TL;DR研究发现，在不同的语言和方言中，文本分类器存在偏见。本文介绍了一个新的数据集 GeoOLID，以及基于该数据集进行的地域相关内容以及其对模型性能差异的完整分析。研究表明，当前模型不能跨位置推广，并且尽管针对非洲裔美国英语的攻击语言模型会引起虚假警报，但是模型性能与每个城市的少数族裔人口比例没有相关性。

Abstract

Text classifiers are applied at scale in the form of one-size-fits-all solutions. Nevertheless, many studies show that classifiers are biased regarding different languages and dialects. When measuring and discovering these biases, some gaps present themselves and should be addressed. First, ``Does language, dialect, and topical content vary across geographic

text classification regional bias geographical regions offensive language model performance

发现论文，激发创造

地理信息辅助语种识别

通过结合地理信息，本研究开发了一种语言识别方法，形成了 16 个区域模型，覆盖 916 种语言，模型性能得到改善。

Mar, 2024

社交媒体上毒性建模中的跨地理偏见检测

本文提出了一种弱监督的方法来检测在更广泛的地理文化背景下的词汇偏见，通过公开获取的有毒检测模型案例研究，展示了我们的方法如何识别跨地理误差的显著群体，并展示这些分组如何反映这些地理背景下人类对攻击性和无攻击性语言的判断.

Apr, 2021

多语言模型在社交媒体上识别冒犯性语言的表现

本研究旨在使用多种算法测试识别冒犯帖子的能力，并评估其对多种评估方法的性能，以减少这些语言对人工审核者的伤害。通过实验，本项目能够激发对识别方法和内容的未来研究。

Dec, 2023

评估语言模型中的地理扭曲：迈向公平表达的关键一步

研究语言模型中的地理偏见，通过比较地理和语义距离，提出四个指标来评估这些偏见，结果强调了检查和纠正语言模型的空间偏见对于确保准确和公平的表达是至关重要的。

Apr, 2024

量化方言差异及其与语言之间的关联

本文通过全面评估最有影响力的最新大型语言模型（LLMs）在机器翻译和自动语音识别两个高使用频率应用领域上的功能，对多个高和低资源语言的地区方言进行了功能评估，并分析了地方方言差距与经济、社会和语言因素的相关性，从而为方言 NLP 领域的发展奠定基础，并通过有意识的数据收集，揭示明显的差异并寻找可能的解决途径。

Oct, 2023

预训练语言模型对某些地理人群的表现优于其他人群

本研究使用空间探测任务和地理参考文献，评估了 OPT 和 BLOOM 系列预训练语言模型在代表全球不同人口群体方面的偏见程度。结果显示，这些模型在某些人口群体中表现得更好，而在南亚和东南亚等地的人口群体中则表现较差。分析结果显示，这种偏见不能完全通过社会语言学因素、经济因素或地理因素来解释。因此，本研究的基本结论是，预训练模型不能平等地代表世界人口，存在强烈的地域偏倚。该发现质疑了一种模型适用于所有人口群体的观点。

Mar, 2024

数据集地理：将语言数据映射到语言使用者

研究了自然语言处理中数据可用性对现代 NLP 系统质量的影响，使用实体识别和链接系统，观察了它们的跨语言一致性，并探讨了解释观察到的数据集分布的地理和经济因素。

Dec, 2021

从语言到地理：评估仇恨言论数据集中的文化偏见

在本研究中，我们评估了仇恨言论数据集中的文化偏见，通过利用语言和地理两个互相关联的文化代理。我们对八种语言的仇恨言论数据集进行了系统调查，验证了对其英语偏见的先前研究结果，但也显示出这种偏见在过去几年中逐渐减少。对于英语、阿拉伯语和西班牙语这三种地理分布广泛的语言，我们利用推特的地理元数据来近似地理文化背景，通过将语言和国家信息配对。我们发现这些语言的仇恨言论数据集存在强烈的地理文化偏见，相对于在更广泛的社交媒体人口和讲这些语言的人口中的重要性，它们在很大程度上过度代表了少数几个国家（例如，对于英语来说是美国和英国）。基于这些结果，我们提出了创建未来仇恨言论数据集的建议。

Apr, 2024

该地不只是你我之地：评估语言模型中的地缘政治偏见

论文提出了地缘政治偏见的概念 —— 根据语言环境报告不同的地缘政治知识，并通过多语言模型回答多语言、多选问题的数据集 BorderLines 分析了语言模型在不同语言中的政治偏见，这一现象是跨语言领域的独特量化评估，表明与多语言的人类不同，LMs 的知识在不同的语言中不一致。

May, 2023

大一新生还是新生？量化互联网语言的地理变化

该研究介绍了一种新的计算技术，用于检测和分析语言中的地理变异，并使用统计学方法识别特定于地区的显著差异。通过神经语言模型学习单词表示，以捕捉地理区域内的不同语义，该方法是第一种明确考虑偶然变异的方法，同时检测单词含义区域变异。研究使用两个大规模在线数据集进行验证，揭示了多个地理分辨率级别的语言变化的有趣方面。最后，使用该模型，我们提出了一种语言语义相似度的度量标准，并发现在 100 年的时间里，在语义层面上，英式英语和美式英语的差异在缩小。

Oct, 2015