社交媒体中的仇恨言论打击:一项调查
本文针对社交媒体上的仇恨言论问题,提出了一种基于对抗性言论的解决方案。作者构建并发布了首个基于 YouTube 评论的对抗性言论数据集,对数据集展开了详尽的分析,并最终训练出了能够在视频评论中自动检测对抗性言论的机器学习模型。
Aug, 2018
用计算机科学的方法对社会科学领域中的对抗性言论研究进行系统性回顾,比较方法和结果,以填补目前在对抗性言论效用方面缺乏系统性理解的空白,从而识别出两个领域的有前途的未来方向。
Jul, 2023
通过使用自我标记的群体进行有组织在线仇恨言论和反言论,研究使用集成学习算法识别有组织在线仇恨言论和反言论,发现自动化方法在评估社交媒体上协调反言论对稳定对话的影响的潜力。
Jun, 2020
本研究发现 Twitter 的在线仇恨言论与相应的反言论使用了不同的语言和策略,并且经过一些分析和建模,能够对这些用户进行可靠的分类以进一步研究。
Dec, 2018
自动对抗言论生成可以帮助社交媒体上打击仇恨内容的有效方法,但生成的对抗言论只有在基于话题、受众和敏感性的背景下才能可行,因为这些因素影响其有效性和适当性。我们提出了一个基于话语理论的新框架,以研究将对抗言论与仇恨评论连接起来的推理链接。在这个框架中,我们提出了:i) 从话语框架中导出的对抗言论分类法,ii) 基于话语理论的上下文化对抗言论生成策略。为了构建和验证这个框架,我们提供了一个从 Reddit 收集实际数据集的过程。利用这个过程,我们手动注释了一个由 3.9k 个 Reddit 评论对组成的数据集,以确定其中是否存在仇恨言论和对抗言论。我们对这些对进行了注释,并提供了重新表述的对应项,以消除冒犯和第一人称参考。我们证明,通过使用我们的数据集和框架,大型语言模型可以生成基于话语理论的上下文化对抗言论。根据我们的人工评估,我们的方法可以作为应对话语不可知模型的重大故障的一种保护措施。
Nov, 2023
社交媒体平台上存在大量的仇恨评论。我们提出了一种用于生成反驳仇恨评论的可控策略的方法,并通过特征控制响应生成,研究了鼓励长期解决方案的可行性。
Jan, 2024
本研究旨在有效收集应对仇恨言论的响应,利用大规模的无监督语言模型生成银标注数据,并采用最佳注释策略 / 神经网络架构来进行专家验证 / 后期编辑。
Apr, 2020
近年来,反言论已经成为打击网络仇恨的最有希望的策略之一。这些非升级回应在保护用户言论自由的同时,可以在减少在线和离线暴力方面产生明显影响。本文提供了关于进行反言论研究的指南,通过详细的实例描述了相关步骤,并提供了从自然语言处理研究的最佳实践。最后,我们讨论了自然语言处理中反言论研究的挑战和未来方向。
Mar, 2024
本文回顾相关研究,旨在探究针对在线仇恨言论的因果效应估计。作者提出了建立在线仇恨言论的因果术语下探讨该主题的必要性,并对研究方向、研究成果和未来研究问题进行了概述。
Sep, 2021