数据饮食下的性别主义检测

Jun, 2024

Sexism Detection on a Data Diet

Rabiraj Bandyopadhyay, Dennis Assenmacher, Jose M.Alonso Moral, Claudia Wagner

TL;DR我们展示了如何利用影响分数来估计在训练模型和设计剪枝策略时数据点的重要性，应用于性别歧视检测案例中，我们评估了不同剪枝策略下训练的模型在三个领域外数据集上的性能，并发现大部分实例可以删除而不会显著降低性能，但我们还发现之前在自然语言推理任务中成功的剪枝数据策略不适用于检测有害内容，反而进一步加剧了已经普遍存在的类别不平衡问题，导致最坏情况下恶意类别完全消失。

Abstract

There is an increase in the proliferation of online hate commensurate with the rise in the usage of social media. In response, there is also a significant advancement in the creation of →

online hate social media automated tools deep learning sexism detection

发现论文，激发创造

职场常用的性别歧视言论的自动检测

本文提出一种基于深度学习和注意力机制的性别歧视检测模型，该模型使用 GloVe 或随机词嵌入，并应用于一组更加有针对性的和多样化的数据集，以获得 0.88 的 F1 分数，以区分更加微妙和难以检测的工作场所性别歧视言论。

Jul, 2020

基于深度学习的推文中的恶意语言检测

该论文提出了一种在社交媒体上识别仇恨内容的检测方案，并使用带有用户相关信息的各种特征以及来自文本内容的词频向量输入到一组循环神经网络分类器中，经实验证明该方法的有效性不仅可以成功区分仇恨言论和正常文本，而且分类的准确性也高于现有的最先进算法。

Jan, 2018

减轻人为偏见的冒犯性语言检测的语言模式开发

通过语言数据扩增方法，减少标注过程中的偏见，借助机器的力量提高标注过程的准确性和公平性，以改善跨多种语言的冒犯性语言分类任务，并减少社交媒体上冒犯性内容的传播。

Dec, 2023

反性别歧视警报系统：利用人工智能技术识别社交媒体上的性别歧视评论

基于自然语言处理和人工智能的反性别歧视警报系统可分析任何公共帖子，判断是否为性别歧视评论，提供类似于交通灯的颜色系统来判断整体帖子中是否存在性别歧视，该系统在西班牙语标记数据集上训练，并取得了很好的性能表现。

Nov, 2023

社交媒体仇恨言论检测的迁移学习

本文介绍了一种机器学习和自然语言处理模型，通过自动识别网页文本中的仇恨言论以及利用迁移学习技术构建了一个识别仇恨言论的表示方法，并开发了一个可视化工具用于多个数据集的简要分析。

Jun, 2019

健康数据饮食上的深度学习：发现对公平性重要的示例

本文提出使用数据增强方法减少自然语言处理中的性别偏见，并通过削减数据集中的例子提高模型的公平性，实验证明该方法在三个文本分类数据集上所实现的公平性优于数据增强方法。

Nov, 2022

深度学习用于仇恨言论检测：一项比较研究

本研究对深度和浅层仇恨言论检测方法进行了大规模实证比较，并以常用数据集为媒介，特别关注实际性能和实践指导，以提供指导，并确定未来的研究方向。

Feb, 2022

多维度性别偏见分类

本论文提出了一个对自然语言文本中的性别偏见进行分解的通用框架，通过多维度的性别偏见分类器可以控制生成模型性别偏差的问题，检测任意文本中的性别偏见，并揭示与性别相关的冒犯性语言。

May, 2020

推特仇恨言论检测的深度学习

本研究通过多种深度学习架构的实验，应用语义词嵌入学习技术来解决 Twitter 上仇恨言论识别的问题，并通过基准数据集的 16K 个注释推断出该方法相较于现有的字符 / 单词 n 元方法有 18 个 F1 分数的提升。

Jun, 2017

使用深度学习方法确定有毒评论和意外模型偏差最小化

使用 BERT 模型，通过对权重损失的加权处理，检测有毒评论并减少对包括种族、性别、宗教在内的身份特征的意外偏见。与传统的逻辑回归模型相比，经过微调的 BERT 模型在分类和偏见减少方面表现得更好，具有 89% 的准确率。

Nov, 2023