自然语言生成中的女性贬低度量：对两个 Reddit 社区的案例研究的初步结果

EMNLPDec, 2023

自然语言生成中的女性贬低度量：对两个 Reddit 社区的案例研究的初步结果

Measuring Misogyny in Natural Language Generation: Preliminary Results from a Case Study on two Reddit Communities

Aaron J. Snoswell, Lucinda Nelson, Hao Xue, Flora D. Salim, Nicolas Suzor...

TL;DR测量自然语言生成中的厌恶问题，并认为通用的 ' 有害性 ' 分类器对此任务不足够。使用 reddit 上的两个 'Incel' 社区的数据来构建训练语料库，我们通过精调两个语言模型表明，某个开源的 ' 有害性 ' 分类器无法区分这些模型的生成结果，而最近由女权主义领域专家提出的具有厌恶特定词汇索引的方法可以作为对厌恶评估的基准，可以揭示这些 Reddit 社区之间已知的差异。我们的初步研究结果凸显了评估伤害的通用方法的局限性，并进一步强调在自然语言评估中需要仔细选择和设计基准。

Abstract

Generic `toxicity' classifiers continue to be used for evaluating the potential for harm in natural language generation, despite mounting evidence of their shortcomings. We consider the challenge of measuring misogyny

toxicity classifiers misogyny natural language generation incel communities language models

发现论文，激发创造

阿拉伯社交媒体上的深度多任务模型用于对女性仇恨的识别和分类

社交媒体上有毒内容的普及，如仇恨言论、冒犯性语言和厌女症，已经引起了自然语言处理领域的广泛关注。本文介绍了首个阿拉伯语厌女症识别任务的提交系统，并研究了基于预训练 MARBERT 语言模型的多任务学习模型和单任务对应模型。而所有提交的模型在厌女症识别和分类任务中都取得了最佳表现（排名前三）。

Jun, 2022

利用注释者的主观性进行鄙视行为识别的多任务学习框架

使用人工智能技术识别厌女症是一种打击网络对女性的有害言论的方式。本文中，我们提出了一种多任务学习方法，利用主体性解释厌女症的主题来提高识别系统性别歧视内容的性能。通过结合不同注释者的多样性观点，考虑六个配置文件组的性别和年龄，在模型设计方面进行了广泛实验和错误分析，并使用两种语言模型验证了我们提出的四种替代的多任务学习技术设计来识别英文推文中存在的厌女症内容。结果表明，结合多样化的观点增强了语言模型解释不同形式厌女症的能力。此研究推进了内容辅助管理，并强调了拥抱多元观点来构建有效的在线管理系统的重要性。

Jun, 2024

衡量网络性别歧视的整体指标

使用监督自然语言处理方法和无监督词嵌入关联测试，本研究构建了一个可以提供针对男性和女性特征以及男性和女性个体的全面性中毒性指标的模型，应用于性别话语社区，并准确地测量了社区中性别歧视的水平。

Apr, 2024

对代码混合的厌女言论进行的探索性数据分析

通过分析 YouTube 上的 Hinglish 评论数据集，实施预处理和探索性数据分析技术，从情感评分和词云等角度对该数据集的特性进行了深入了解。

Mar, 2024

微妙的女性歧视检测与缓解：一个由专家注释的数据集

使用新颖的数据集开发方法，Biasly 数据集以与文献中独特的方式捕捉了对女性的厌恶的微妙之处。与多领域专家和标注员合作构建的数据集包含了电影字幕的标注，捕捉了北美电影中的口语表达对女性的厌恶。该数据集可用于各种 NLP 任务，包括分类、严重程度评分回归和文本重写的生成。在本文中，我们讨论了所使用的方法学，分析了获得的标注，并在对女性厌恶检测和缓解的背景下使用常见的 NLP 算法提供了基线。我们希望这项工作能促进 AI 在 NLP 中的社会价值，用于偏见检测、解释和消除。

Nov, 2023

开发一个多语言的女性仇恨和侵略性注释语料库

本文介绍了一个多语言标注的数据集，包含了印度英语，印地语和孟加拉语中的仇恨言论和攻击言论，并描述了数据收集和标注过程中的问题和挑战以及最终实验结果。

Mar, 2020

通过大规模语言模型揭示网络社区中的偏见

本文利用自然语言生成中存在的偏见漏洞，探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整，该文评估了生成模型的偏见，并通过不同的人口属性来比较情感和毒性价值，从而揭示了各种模型的偏见类型和强度的差异。此外，本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。

Jun, 2023

为多元视角设计有害内容分类

本研究调查了 17280 名互联网用户对什么构成毒性内容的期望不同，发现那些历史上处于骚扰风险中的群体更可能将 Reddit、Twitter 或 4chan 上的随机评论标记为有毒，而那些亲身经历过骚扰的人也更可能这样做。基于我们的发现，我们展示了目前的一款面向所有用户的毒性分类算法 Perspective API，如何通过个性化模型调整平均提高 86％的准确性。最终，我们强调当前的缺陷和新的设计方向，以提高毒性内容分类器的公平性和效果。

Jun, 2021

德国报纸论坛评论的仇恨言论分类

本文介绍了在一个大型奥地利德语报刊评论中检测厌女情绪的工作，其中创建了一个包含 6600 个带有五个不同厌女程度注释的语料库，并描述了基于变换器的分类模型对该语料库进行二元分类和原始标签分类的结果。

Nov, 2022

ToxiGen：一个大规模机器生成的用于对抗和隐式仇恨言论检测的数据集

本论文介绍了 ToxiGen，一个新的大规模自动生成的 274k 毒性和良性陈述数据集，用于检测涉及 13 个少数群体的文本。通过使用基于展示的提示框架和诱导循环解码方法来生成微妙的毒性和良性文本，ToxiGen 能够覆盖范围更广的暗含毒性文本，包括更多样化的人口群体。与此同时，研究者通过人类评估表明，94.5％的毒性示例被人类标注者标记为仇恨言论。合理的数据利用对文本分类器的提高有积极的作用。

Mar, 2022