职场常用的性别歧视言论的自动检测
我们展示了如何利用影响分数来估计在训练模型和设计剪枝策略时数据点的重要性,应用于性别歧视检测案例中,我们评估了不同剪枝策略下训练的模型在三个领域外数据集上的性能,并发现大部分实例可以删除而不会显著降低性能,但我们还发现之前在自然语言推理任务中成功的剪枝数据策略不适用于检测有害内容,反而进一步加剧了已经普遍存在的类别不平衡问题,导致最坏情况下恶意类别完全消失。
Jun, 2024
本文借助改进的 LSTM 神经网络架构,提出了一种基于 One-vs-Rest 分类器的两阶段方案,用于在社交媒体上自动检测仇恨性内容,并在公共语料库和其他数据集上进行了实验,结果显示其在仇恨言论检测任务中具有卓越的分类性能。
Jun, 2022
基于自然语言处理和人工智能的反性别歧视警报系统可分析任何公共帖子,判断是否为性别歧视评论,提供类似于交通灯的颜色系统来判断整体帖子中是否存在性别歧视,该系统在西班牙语标记数据集上训练,并取得了很好的性能表现。
Nov, 2023
该论文提出了一种在社交媒体上识别仇恨内容的检测方案,并使用带有用户相关信息的各种特征以及来自文本内容的词频向量输入到一组循环神经网络分类器中,经实验证明该方法的有效性不仅可以成功区分仇恨言论和正常文本,而且分类的准确性也高于现有的最先进算法。
Jan, 2018
本研究通过多种深度学习架构的实验,应用语义词嵌入学习技术来解决 Twitter 上仇恨言论识别的问题,并通过基准数据集的 16K 个注释推断出该方法相较于现有的字符 / 单词 n 元方法有 18 个 F1 分数的提升。
Jun, 2017
通过使用预训练语言模型 BERT 进行迁移学习,本文提出了一种在推特上进行种族主义、性别主义、仇恨性或冒犯性内容检测的算法,并将对算法进行合理地裁剪降低出现倾向性的缺陷。
Aug, 2020
利用预训练的词嵌入和最大 / 平均池化的神经网络方法,能够预测在三个公开数据集上的仇恨言论情况,相较于以往方法使用更少的参数和特征预处理,其在所有三个数据集上达到或超过了最新的 F1 表现。
Sep, 2018
针对在线仇恨言论的自动检测是 NLP 领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调,分析了数据集通用性的差异,并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。
Jul, 2023