通过心理学和哲学文献,我们提供六种基于心理学的策略来挑战令人讨厌的语言中的刻板印象,并发现人类编写的反言中使用更具体的对抗策略,而机器生成的反言使用的策略通常不太具体且不太令人信服。
Oct, 2023
通过使用自我标记的群体进行有组织在线仇恨言论和反言论,研究使用集成学习算法识别有组织在线仇恨言论和反言论,发现自动化方法在评估社交媒体上协调反言论对稳定对话的影响的潜力。
Jun, 2020
本研究旨在有效收集应对仇恨言论的响应,利用大规模的无监督语言模型生成银标注数据,并采用最佳注释策略 / 神经网络架构来进行专家验证 / 后期编辑。
Apr, 2020
用计算机科学的方法对社会科学领域中的对抗性言论研究进行系统性回顾,比较方法和结果,以填补目前在对抗性言论效用方面缺乏系统性理解的空白,从而识别出两个领域的有前途的未来方向。
Jul, 2023
本文介绍了一种混合方法收集在线仇恨言论和非政府组织的多轮对话数据,从而帮助训练自然语言生成模型以自动化反击网络仇恨言论。
Nov, 2022
本文针对社交媒体上的仇恨言论问题,提出了一种基于对抗性言论的解决方案。作者构建并发布了首个基于 YouTube 评论的对抗性言论数据集,对数据集展开了详尽的分析,并最终训练出了能够在视频评论中自动检测对抗性言论的机器学习模型。
Aug, 2018
本研究发现 Twitter 的在线仇恨言论与相应的反言论使用了不同的语言和策略,并且经过一些分析和建模,能够对这些用户进行可靠的分类以进一步研究。
Dec, 2018
本文通过对 Hateval 语料库进行人工标注并评估,探讨了大型语言模型中关于憎恨言论的论述元素自动识别的可靠性,发现某些元素相对可靠,对于那些错误率较高的元素,其争议点分析和适当调整后能够更为可靠的识别。
Jun, 2023
评估反对仇恨言论的最佳方法,研究将说服模式分为理性、情感和可信度,并评估其在封闭和开放的对话互动中的使用,揭示不同模式在反对仇恨评论和话题层面上的微妙差异以及理性作为说服模式的支持回复更多的潜力。
Mar, 2024
该研究描述了多个 NGO 的百余名熟练操作员联合创建的第一个大尺度的恶意言论及对抗文本对的多语种数据集,并提供了关于数据扩增、恶意类型和回应类型等额外的注释。
Oct, 2019