职场常用的性别歧视言论的自动检测

KDDJul, 2020

职场常用的性别歧视言论的自动检测

Automatic Detection of Sexist Statements Commonly Used at the Workplace

Dylan Grosz, Patricia Conde-Cespedes

TL;DR本文提出一种基于深度学习和注意力机制的性别歧视检测模型，该模型使用 GloVe 或随机词嵌入，并应用于一组更加有针对性的和多样化的数据集，以获得 0.88 的 F1 分数，以区分更加微妙和难以检测的工作场所性别歧视言论。

Abstract

Detecting hate speech in the workplace is a unique classification task, as the underlying social context implies a subtler version of conventional hate speech. Applications regarding a state-of the-art

hate speech workplace sexism detection model deep learning lstms

发现论文，激发创造

数据饮食下的性别主义检测

我们展示了如何利用影响分数来估计在训练模型和设计剪枝策略时数据点的重要性，应用于性别歧视检测案例中，我们评估了不同剪枝策略下训练的模型在三个领域外数据集上的性能，并发现大部分实例可以删除而不会显著降低性能，但我们还发现之前在自然语言推理任务中成功的剪枝数据策略不适用于检测有害内容，反而进一步加剧了已经普遍存在的类别不平衡问题，导致最坏情况下恶意类别完全消失。

Jun, 2024

基于深度神经网络的改进型 Twitter 两阶段仇恨言论分类

本文借助改进的 LSTM 神经网络架构，提出了一种基于 One-vs-Rest 分类器的两阶段方案，用于在社交媒体上自动检测仇恨性内容，并在公共语料库和其他数据集上进行了实验，结果显示其在仇恨言论检测任务中具有卓越的分类性能。

Jun, 2022

反性别歧视警报系统：利用人工智能技术识别社交媒体上的性别歧视评论

基于自然语言处理和人工智能的反性别歧视警报系统可分析任何公共帖子，判断是否为性别歧视评论，提供类似于交通灯的颜色系统来判断整体帖子中是否存在性别歧视，该系统在西班牙语标记数据集上训练，并取得了很好的性能表现。

Nov, 2023

基于深度学习的推文中的恶意语言检测

该论文提出了一种在社交媒体上识别仇恨内容的检测方案，并使用带有用户相关信息的各种特征以及来自文本内容的词频向量输入到一组循环神经网络分类器中，经实验证明该方法的有效性不仅可以成功区分仇恨言论和正常文本，而且分类的准确性也高于现有的最先进算法。

Jan, 2018

推特仇恨言论检测的深度学习

本研究通过多种深度学习架构的实验，应用语义词嵌入学习技术来解决 Twitter 上仇恨言论识别的问题，并通过基准数据集的 16K 个注释推断出该方法相较于现有的字符 / 单词 n 元方法有 18 个 F1 分数的提升。

Jun, 2017

自動化檢測仇恨言論及冒犯性語言問題

该研究利用众包的方法，通过使用集成的多分类器和众包获得的仇恨言论词汇，成功区分了具有仇恨言辞、仅具有冒犯性言辞以及没有冒犯性言辞的推文。

Mar, 2017

基于 BERT 模型的社交媒体仇恨言论检测及种族偏见缓解

通过使用预训练语言模型 BERT 进行迁移学习，本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法，并将对算法进行合理地裁剪降低出现倾向性的缺陷。

Aug, 2020

基于预测嵌入的推特仇恨言论检测

利用预训练的词嵌入和最大 / 平均池化的神经网络方法，能够预测在三个公开数据集上的仇恨言论情况，相较于以往方法使用更少的参数和特征预处理，其在所有三个数据集上达到或超过了最新的 F1 表现。

Sep, 2018

社交媒体中的强韧仇恨言论检测：跨数据集实证评估

针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调，分析了数据集通用性的差异，并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。

Jul, 2023

深度学习用于仇恨言论检测：一项比较研究

本研究对深度和浅层仇恨言论检测方法进行了大规模实证比较，并以常用数据集为媒介，特别关注实际性能和实践指导，以提供指导，并确定未来的研究方向。

Feb, 2022