研究 Incel 社群激进化的词汇表
本研究使用数量化文本和网络分析方法,研究了 incels.is 线上社区中,关于身份群体的讨论方式和使用的术语,发现这个社区生产了广泛的身份认同术语,其中提及的女性是最常见的,但其他少数群体的提及率也在上升,并发现了一种基于本质主义的意识形态,其中人类价值受身体外形、性别和种族等等的等级影响,讨论了研究自动检测仇恨言论的意义。
Jun, 2023
本文以 Reddit 社区为例,测量加入具有仇恨言论的极端社区对该社交媒体平台中仇恨言论传播的影响,研究发现加入这种社区会导致恶意言论在平台上传播,并且这种负面影响会持续数月,为降低仇恨言论传播的风险,有必要对这些 “回音室” 进行管理。
Sep, 2022
测量自然语言生成中的厌恶问题,并认为通用的 ' 有害性 ' 分类器对此任务不足够。使用 reddit 上的两个 'Incel' 社区的数据来构建训练语料库,我们通过精调两个语言模型表明,某个开源的 ' 有害性 ' 分类器无法区分这些模型的生成结果,而最近由女权主义领域专家提出的具有厌恶特定词汇索引的方法可以作为对厌恶评估的基准,可以揭示这些 Reddit 社区之间已知的差异。我们的初步研究结果凸显了评估伤害的通用方法的局限性,并进一步强调在自然语言评估中需要仔细选择和设计基准。
Dec, 2023
本文提出了一种检测新兴编码仇恨化术语的方法,该方法在在线反犹太人言论的背景下进行了测试,主要通过对社交媒体平台上的帖子进行抓取并计算其在整个语料库中的频率,以过滤掉语法不连贯的表达和先前遇到过的表达,最后通过对已知的反犹太术语的语义相似性进行评估,并移除与之相距过远的表达,最终返回仅含有编码化仇恨表达的新兴反犹太术语。
Jan, 2024
使用监督自然语言处理方法和无监督词嵌入关联测试,本研究构建了一个可以提供针对男性和女性特征以及男性和女性个体的全面性中毒性指标的模型,应用于性别话语社区,并准确地测量了社区中性别歧视的水平。
Apr, 2024
本文介绍了 HATELEXICON,一个针对巴西、德国、印度和肯尼亚的蔑称和仇恨言论目标的词汇表,以帮助模型的训练和可解释性。通过模拟德语和印地语的 few-shot learning,文中展示了选择包含更多社会文化信息的 shot,使用我们的词表来选择 shot 能够提高模型的性能。
Apr, 2023
通过社群检测方法和词嵌入模型,本研究发现标记数据和关键词方法在探测新兴极端组织使用的词汇时效果不佳,提出使用学到的代号词汇来识别 hate speech 的方法,通过实验得出该方法的准确度比使用关键词更高,可以被应用于自动化 hate speech 检测。
Nov, 2017
本文将 Urban Dictionary 作为对象,通过定量分析的方法和定性注解的方法,对其增长,覆盖面和内容类型进行了研究和探讨,结果发现 Urban Dictionary 与传统词典不同,注重于以观点为中心的词条,覆盖民间用语和专有名词,并包含不当内容,使其成为了一种研究语言创新的有挑战性的来源。
Dec, 2017
研究 ERH 上下文挖掘的特殊领域,汇总了 51 项相关研究,着重于自然语言处理、社区检测和视觉文本模型,提出了推荐给研究人员、政府和行业的实施路线图,旨在建立更安全的网络空间。
Jan, 2023
本文介绍一种基于 colexification 方法的词库扩展方法,名为 LEXpander,通过该方法生成的单词列表在各个测试中表现良好,可以近似于心理学和语言学专家生成的单词列表。
May, 2022