仇恨无法消除仇恨：预测对仇恨言论回复后的对话不文明

AAAIDec, 2023

Hate Cannot Drive out Hate: Forecasting Conversation Incivility following Replies to Hate Speech

Xinchen Yu, Eduardo Blanco, Lingzi Hong

TL;DR预测回复仇恨言论后的不文明对话的任务及其相关衡量标准和语言分析研究的结果，揭示了最佳模型最常见的错误。

Abstract

user-generated replies to hate speech are promising means to combat hatred, but questions about whether they can stop incivility in

发现论文，激发创造

本文提出了 DRAGNET++，使用推文线程的语义和传播结构来预测推文的仇恨强度，可以识别出即使是微妙的推文也有可能引发仇恨言论，超越了所有最先进的基线。

Jun, 2022

通过使用自我标记的群体进行有组织在线仇恨言论和反言论，研究使用集成学习算法识别有组织在线仇恨言论和反言论，发现自动化方法在评估社交媒体上协调反言论对稳定对话的影响的潜力。

Jun, 2020

利用大型语言模型生成有限制条件的反抗言论，并研究其对在线环境的影响和生成方法的语言特征。

Mar, 2024

社交媒体平台上存在大量的仇恨评论。我们提出了一种用于生成反驳仇恨评论的可控策略的方法，并通过特征控制响应生成，研究了鼓励长期解决方案的可行性。

Jan, 2024

通过对美国新闻的礼貌性手动标注的语料库，测试 Jigsaw Perspective API 是否能够检测到不礼貌的程度，结果表明，Perspective 等模型无法很好地分析新闻中的不礼貌性，需要开发去除新闻中经常提到的词之间的虚假相关性的方法，这样才能更好地解决新闻中的不良言行问题。

Feb, 2021

研究了 Twitter 社交媒体上的政治不文明言辞，利用大数据集和群众智慧标注方法，成功进行了协议检测和语境建模，并探究了不文明言论的普遍性及其传播网络结构特征。

May, 2023

本研究发现 Twitter 的在线仇恨言论与相应的反言论使用了不同的语言和策略，并且经过一些分析和建模，能够对这些用户进行可靠的分类以进一步研究。

Dec, 2018

该研究提出了一种预测在线讨论可能偏离主题的模型，通过对话建模来捕捉话题的动态及其可能的演变，从而在讨论真正变得混乱之前预测可能的混乱。

Sep, 2019

通过心理学和哲学文献，我们提供六种基于心理学的策略来挑战令人讨厌的语言中的刻板印象，并发现人类编写的反言中使用更具体的对抗策略，而机器生成的反言使用的策略通常不太具体且不太令人信服。

Oct, 2023

评估反对仇恨言论的最佳方法，研究将说服模式分为理性、情感和可信度，并评估其在封闭和开放的对话互动中的使用，揭示不同模式在反对仇恨评论和话题层面上的微妙差异以及理性作为说服模式的支持回复更多的潜力。

Mar, 2024