仇恨言论和对话语境相关的反言检测
本文通过提供一个西班牙语口音的基于社交媒体中与 COVID-19 相关的新闻发布的用户回复的语料库,证明了对于检测 hate speech,加入上下文信息可以提高自动检测模型的性能。
Oct, 2022
本文提出了一个包含上下文信息的仇恨言论数据集并提出了两种模型:一个基于逻辑回归模型的模型和一个具有上下文学习组件的神经网络模型。实验表明,这两种模型在 F1 得分方面优于强基线约 3%到 4%,结合这两种模型可进一步提高 7%的 F1 得分。
Oct, 2017
通过使用自我标记的群体进行有组织在线仇恨言论和反言论,研究使用集成学习算法识别有组织在线仇恨言论和反言论,发现自动化方法在评估社交媒体上协调反言论对稳定对话的影响的潜力。
Jun, 2020
本文针对社交媒体上的仇恨言论问题,提出了一种基于对抗性言论的解决方案。作者构建并发布了首个基于 YouTube 评论的对抗性言论数据集,对数据集展开了详尽的分析,并最终训练出了能够在视频评论中自动检测对抗性言论的机器学习模型。
Aug, 2018
本文提出了一种基于超伸缩空间的用户与对话上下文配合的机制 CoSyn,用于在线讨论中检测隐含仇恨言论,该方法在开放源 Twitter 数据集上的实验表明:CoSyn 在检测隐含仇恨言论方面表现出比其它方法更好的性能。
Mar, 2023
通过社群检测方法和词嵌入模型,本研究发现标记数据和关键词方法在探测新兴极端组织使用的词汇时效果不佳,提出使用学到的代号词汇来识别 hate speech 的方法,通过实验得出该方法的准确度比使用关键词更高,可以被应用于自动化 hate speech 检测。
Nov, 2017
自动对抗言论生成可以帮助社交媒体上打击仇恨内容的有效方法,但生成的对抗言论只有在基于话题、受众和敏感性的背景下才能可行,因为这些因素影响其有效性和适当性。我们提出了一个基于话语理论的新框架,以研究将对抗言论与仇恨评论连接起来的推理链接。在这个框架中,我们提出了:i) 从话语框架中导出的对抗言论分类法,ii) 基于话语理论的上下文化对抗言论生成策略。为了构建和验证这个框架,我们提供了一个从 Reddit 收集实际数据集的过程。利用这个过程,我们手动注释了一个由 3.9k 个 Reddit 评论对组成的数据集,以确定其中是否存在仇恨言论和对抗言论。我们对这些对进行了注释,并提供了重新表述的对应项,以消除冒犯和第一人称参考。我们证明,通过使用我们的数据集和框架,大型语言模型可以生成基于话语理论的上下文化对抗言论。根据我们的人工评估,我们的方法可以作为应对话语不可知模型的重大故障的一种保护措施。
Nov, 2023
本研究通过给出上下文,重新注释部分英文侮辱语言检测数据集,比较了基于上下文和不基于上下文两种数据集上三种分类算法的性能,发现基于上下文的分类更具挑战性,但也更类似于实际应用场景。
Mar, 2021
本文提出了一项生成式仇恨言论干预的新任务,并介绍了从 Gab 和 Reddit 收集的两个全标记的大规模仇恨言论干预数据集,该数据集提供了对话段、仇恨言论标签以及 MTurk Workers 编写的干预响应,此外,本文还分析了这些数据集以了解常见的干预策略,并探索常见的自动响应生成方法在这些新数据集上的性能以提供未来研究的基准。
Sep, 2019
本研究发现 Twitter 的在线仇恨言论与相应的反言论使用了不同的语言和策略,并且经过一些分析和建模,能够对这些用户进行可靠的分类以进一步研究。
Dec, 2018