不可恶言相向：反击网络仇恨言论

Aug, 2018

不可恶言相向：反击网络仇恨言论

Thou shalt not hate: Countering Online Hate Speech

Binny Mathew, Punyajoy Saha, Hardik Tharad, Subham Rajgaria, Prajwal Singhania...

TL;DR本文针对社交媒体上的仇恨言论问题，提出了一种基于对抗性言论的解决方案。作者构建并发布了首个基于 YouTube 评论的对抗性言论数据集，对数据集展开了详尽的分析，并最终训练出了能够在视频评论中自动检测对抗性言论的机器学习模型。

Abstract

hate content in social media is ever-increasing. While Facebook, Twitter, Google have attempted to take several steps to tackle the hateful content, they have mostly been unsuccessful. →

counterspeech hate content social media dataset machine learning

发现论文，激发创造

探索网络伤害缓解的逆行言论

用计算机科学的方法对社会科学领域中的对抗性言论研究进行系统性回顾，比较方法和结果，以填补目前在对抗性言论效用方面缺乏系统性理解的空白，从而识别出两个领域的有前途的未来方向。

Jul, 2023

社交媒体上的仇恨言论反制：仇恨言论和反言论的大规模分类

通过使用自我标记的群体进行有组织在线仇恨言论和反言论，研究使用集成学习算法识别有组织在线仇恨言论和反言论，发现自动化方法在评估社交媒体上协调反言论对稳定对话的影响的潜力。

Jun, 2020

分析 Twitter 上的仇恨与对立言论账户

本研究发现 Twitter 的在线仇恨言论与相应的反言论使用了不同的语言和策略，并且经过一些分析和建模，能够对这些用户进行可靠的分类以进一步研究。

Dec, 2018

应对仇恨言论的自然语言处理：概述和操作指南

近年来，反言论已经成为打击网络仇恨的最有希望的策略之一。这些非升级回应在保护用户言论自由的同时，可以在减少在线和离线暴力方面产生明显影响。本文提供了关于进行反言论研究的指南，通过详细的实例描述了相关步骤，并提供了从自然语言处理研究的最佳实践。最后，我们讨论了自然语言处理中反言论研究的挑战和未来方向。

Mar, 2024

仇恨言论和对话语境相关的反言检测

研究表明，上下文对于识别网络仇恨言论和反对言论至关重要。作者利用 Reddit 评论创建了一个上下文感知数据集，使用人类判断和神经网络实验结果表明，考虑上下文可以使结果显著提升。

Jun, 2022

DisCGen: 基于话语的抵制言论生成框架

自动对抗言论生成可以帮助社交媒体上打击仇恨内容的有效方法，但生成的对抗言论只有在基于话题、受众和敏感性的背景下才能可行，因为这些因素影响其有效性和适当性。我们提出了一个基于话语理论的新框架，以研究将对抗言论与仇恨评论连接起来的推理链接。在这个框架中，我们提出了：i) 从话语框架中导出的对抗言论分类法，ii) 基于话语理论的上下文化对抗言论生成策略。为了构建和验证这个框架，我们提供了一个从 Reddit 收集实际数据集的过程。利用这个过程，我们手动注释了一个由 3.9k 个 Reddit 评论对组成的数据集，以确定其中是否存在仇恨言论和对抗言论。我们对这些对进行了注释，并提供了重新表述的对应项，以消除冒犯和第一人称参考。我们证明，通过使用我们的数据集和框架，大型语言模型可以生成基于话语理论的上下文化对抗言论。根据我们的人工评估，我们的方法可以作为应对话语不可知模型的重大故障的一种保护措施。

Nov, 2023

CONAN - COunter NArratives through Nichesourcing: 一个多语言的回应数据集，以打击网络仇恨言论

该研究描述了多个 NGO 的百余名熟练操作员联合创建的第一个大尺度的恶意言论及对抗文本对的多语种数据集，并提供了关于数据扩增、恶意类型和回应类型等额外的注释。

Oct, 2019

应对仇恨言论的受约束大型语言模型

利用大型语言模型生成有限制条件的反抗言论，并研究其对在线环境的影响和生成方法的语言特征。

Mar, 2024

超越谴责仇恨：消除语言中暗含的偏见和刻板印象的策略

通过心理学和哲学文献，我们提供六种基于心理学的策略来挑战令人讨厌的语言中的刻板印象，并发现人类编写的反言中使用更具体的对抗策略，而机器生成的反言使用的策略通常不太具体且不太令人信服。

Oct, 2023

整合对抗仇恨言论的策略 —— 利用说服对话

社交媒体平台上存在大量的仇恨评论。我们提出了一种用于生成反驳仇恨评论的可控策略的方法，并通过特征控制响应生成，研究了鼓励长期解决方案的可行性。

Jan, 2024