社交媒体上毒性建模中的跨地理偏见检测

Apr, 2021

社交媒体上毒性建模中的跨地理偏见检测

Detecting Cross-Geographic Biases in Toxicity Modeling on Social Media

Sayan Ghosh, Dylan Baker, David Jurgens, Vinodkumar Prabhakaran

TL;DR本文提出了一种弱监督的方法来检测在更广泛的地理文化背景下的词汇偏见，通过公开获取的有毒检测模型案例研究，展示了我们的方法如何识别跨地理误差的显著群体，并展示这些分组如何反映这些地理背景下人类对攻击性和无攻击性语言的判断.

Abstract

Online social media platforms increasingly rely on Natural Language Processing (NLP) techniques to detect abusive content at scale in order to mitigate the harms it causes to their users. However, these techniques suffer from various sampling and association biases present in training

natural language processing abusive content bias detection geocultural contexts toxicity detection model

发现论文，激发创造

通过大规模语言模型揭示网络社区中的偏见

本文利用自然语言生成中存在的偏见漏洞，探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整，该文评估了生成模型的偏见，并通过不同的人口属性来比较情感和毒性价值，从而揭示了各种模型的偏见类型和强度的差异。此外，本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。

Jun, 2023

关于跨数据集通用性的在线滥用自动检测

通过无监督主题模型和人工主题关键词检查，我们发现 Wikipedia Detox 数据集中温和的例子偏向于平台特定主题，移除这些主题可以提高跨数据集泛化能力，同时不会降低领域内分类性能，为了建立一个有效的数据集设计，我们建议在手动标注类标签之前，应用廉价的无监督方法检查收集的数据并减少不具有泛化能力的内容。

Oct, 2020

检测有毒语料库中的意外社会偏见

本研究介绍了一个新的数据集 ToxicBias，这是从 Kaggle 竞赛中现有的数据集 “Jigsaw Unintended Bias in Toxicity Classification” 中精心策划的，旨在检测社交偏见及其类别和目标群体。我们使用我们策划的数据集对基于转换器的模型进行训练，并报告了偏见识别、目标生成和偏见影响的基线性能。研究还详细讨论了模型偏见及其缓解。

Oct, 2022

自然语言处理中偏见相关性及其缓解方法的研究

本文通过研究 NLP 模型中三个社会身份（种族、性别和宗教）之间的偏见相关性，提出在对偏见进行改善时需要综合考虑相关的偏见，而不是各自分开处理，以引导更多相关研究

May, 2022

多任务学习在毒性评论检测中降低模型偏差的实证分析

该论文评估了多种最先进的模型，特别关注减少模型对一些少数群体的偏见，提出了一个多任务学习模型以及一系列深度学习模型，并使用特定的指标测试这些身份群体中意料之外的模型偏见。

Sep, 2019

量化攻击性语言分类器的地理表现差异

研究发现，在不同的语言和方言中，文本分类器存在偏见。本文介绍了一个新的数据集 GeoOLID，以及基于该数据集进行的地域相关内容以及其对模型性能差异的完整分析。研究表明，当前模型不能跨位置推广，并且尽管针对非洲裔美国英语的攻击语言模型会引起虚假警报，但是模型性能与每个城市的少数族裔人口比例没有相关性。

Sep, 2022

英语边缘滥用模型在 Twitter 上对被边缘化群体过度惩罚的基于关键词的方法

本文通过设计一种新的方法来检测和衡量基于文本的模型所涉及的潜在危害的严重性，并将该方法应用于 Twitter 的英语边缘滥用模型，以检测和测量与过度惩罚边缘社区言论相关的问题，并通过增加附加真负面示例来减轻相关危害。

Oct, 2022

自动去偏见检测有害语言面临的挑战

由于文本分类器开发中的偏见关联限制了公平性和准确性，因此我们调查了最近介绍的去偏置方法，作用于检测有毒语言的文本分类数据集和模型，重点关注词汇（例如骂人话、侮辱性言论、身份称谓）和方言标记（特别是非裔美国英语）。我们的全面实验表明，现有的方法在防止当前毒性检测器中出现有偏见的行为方面存在局限性。然后，我们提出了一种自动的方言感知数据校正方法作为概念验证。尽管采用了合成标签，但该方法减少了方言与毒性之间的关联。总的来说，我们的发现表明，在训练有毒性偏见性数据的模型时去偏置并不如简单重标记数据以消除现有偏见有效。

Jan, 2021

评估语言模型中的地理扭曲：迈向公平表达的关键一步

研究语言模型中的地理偏见，通过比较地理和语义距离，提出四个指标来评估这些偏见，结果强调了检查和纠正语言模型的空间偏见对于确保准确和公平的表达是至关重要的。

Apr, 2024

语言模型的地理和地缘政治偏差

本文提出了一种地理表示探究框架，通过自我条件方法和实体 - 国家映射研究了 PLMs 中存在的地理偏见和知识，发现尽管 PLMs 的表示与物理世界的各个国家的关联性惊人地契合，但这种知识在不同语言中分享程度却有所不同，同时说明了大型 PLMs 虽然表现出了地理接近度的概念，但在推断时会过度放大地缘政治偏好。

Dec, 2022