衡量网络性别歧视的整体指标
测量自然语言生成中的厌恶问题,并认为通用的 ' 有害性 ' 分类器对此任务不足够。使用 reddit 上的两个 'Incel' 社区的数据来构建训练语料库,我们通过精调两个语言模型表明,某个开源的 ' 有害性 ' 分类器无法区分这些模型的生成结果,而最近由女权主义领域专家提出的具有厌恶特定词汇索引的方法可以作为对厌恶评估的基准,可以揭示这些 Reddit 社区之间已知的差异。我们的初步研究结果凸显了评估伤害的通用方法的局限性,并进一步强调在自然语言评估中需要仔细选择和设计基准。
Dec, 2023
我们展示了如何利用影响分数来估计在训练模型和设计剪枝策略时数据点的重要性,应用于性别歧视检测案例中,我们评估了不同剪枝策略下训练的模型在三个领域外数据集上的性能,并发现大部分实例可以删除而不会显著降低性能,但我们还发现之前在自然语言推理任务中成功的剪枝数据策略不适用于检测有害内容,反而进一步加剧了已经普遍存在的类别不平衡问题,导致最坏情况下恶意类别完全消失。
Jun, 2024
本研究调查了 17280 名互联网用户对什么构成毒性内容的期望不同,发现那些历史上处于骚扰风险中的群体更可能将 Reddit、Twitter 或 4chan 上的随机评论标记为有毒,而那些亲身经历过骚扰的人也更可能这样做。基于我们的发现,我们展示了目前的一款面向所有用户的毒性分类算法 Perspective API,如何通过个性化模型调整平均提高 86%的准确性。最终,我们强调当前的缺陷和新的设计方向,以提高毒性内容分类器的公平性和效果。
Jun, 2021
通过神经嵌入技术对 Reddit 14 年间 5.1B 评论的社区结构进行了研究,发现在 2016 年美国总统选举后,Reddit 出现了明显的政治极化,尤其是右翼用户的活动量增加导致的。个体级的极化是罕见的,政治极化可以通过考察单个用户的行为预测,可能因外部事件而发生。
Oct, 2020
介绍 SemEval 任务 10,该任务是关于可解释的在线性别歧视检测(EDOS)。我们提出了新的性别歧视分层分类体系,包括帮助解释的细粒度歧视向量,并提供了一个新的带有细粒度标签的 20,000 条社交媒体评论数据集,以及用于模型适应的更大型的未标注数据集,并提供了任务的基线模型以及对参与者提交的方法、结果和错误的分析。
Mar, 2023
本文研究了机器学习模型在对包含多种形式的细微虐待语言(如敌意、讽刺和概括等)的不健康在线会话进行分类的应用。结合包含 7 种细微有毒评论的公共数据集,我们成功地对这些评论进行了分类和判别,并揭示了对于不同种类的不健康评论,其中,敌意评论比其他类型更容易检测。同时,情感分析表明,多数类型的有害评论与轻微负面情绪相关联,其中敌意评论是最具负面情绪的类型。
Jun, 2021
通过分析 YouTube 上的 Hinglish 评论数据集,实施预处理和探索性数据分析技术,从情感评分和词云等角度对该数据集的特性进行了深入了解。
Mar, 2024
通过对美国新闻的礼貌性手动标注的语料库,测试 Jigsaw Perspective API 是否能够检测到不礼貌的程度,结果表明,Perspective 等模型无法很好地分析新闻中的不礼貌性,需要开发去除新闻中经常提到的词之间的虚假相关性的方法,这样才能更好地解决新闻中的不良言行问题。
Feb, 2021
基于自然语言处理和人工智能的反性别歧视警报系统可分析任何公共帖子,判断是否为性别歧视评论,提供类似于交通灯的颜色系统来判断整体帖子中是否存在性别歧视,该系统在西班牙语标记数据集上训练,并取得了很好的性能表现。
Nov, 2023
本文介绍了一种使用多个标签注释恶意在线言论的方法,强调了注释应该是细致、准确的。作者发布了一个高质量的数据集,使用六个标签注释了超过 40,000 条有关移民的推文,在此数据集上训练模型的表现优于基准数据集。
Oct, 2022