整合对抗仇恨言论的策略 —— 利用说服对话

Jan, 2024

整合对抗仇恨言论的策略 —— 利用说服对话

Consolidating Strategies for Countering Hate Speech Using Persuasive Dialogues

Sougata Saha, Rohini Srihari

TL;DR社交媒体平台上存在大量的仇恨评论。我们提出了一种用于生成反驳仇恨评论的可控策略的方法，并通过特征控制响应生成，研究了鼓励长期解决方案的可行性。

Abstract

hateful comments are prevalent on social media platforms. Although tools for automatically detecting, flagging, and blocking such false, offensive, and harmful content online have lately matured, such reactive an

hateful comments social media platforms counter-arguments online conversations automatic detection

发现论文，激发创造

超越谴责仇恨：消除语言中暗含的偏见和刻板印象的策略

通过心理学和哲学文献，我们提供六种基于心理学的策略来挑战令人讨厌的语言中的刻板印象，并发现人类编写的反言中使用更具体的对抗策略，而机器生成的反言使用的策略通常不太具体且不太令人信服。

Oct, 2023

社交媒体上的仇恨言论反制：仇恨言论和反言论的大规模分类

通过使用自我标记的群体进行有组织在线仇恨言论和反言论，研究使用集成学习算法识别有组织在线仇恨言论和反言论，发现自动化方法在评估社交媒体上协调反言论对稳定对话的影响的潜力。

Jun, 2020

生成针对在线仇恨言论的反叙事：数据与策略

本研究旨在有效收集应对仇恨言论的响应，利用大规模的无监督语言模型生成银标注数据，并采用最佳注释策略 / 神经网络架构来进行专家验证 / 后期编辑。

Apr, 2020

探索网络伤害缓解的逆行言论

用计算机科学的方法对社会科学领域中的对抗性言论研究进行系统性回顾，比较方法和结果，以填补目前在对抗性言论效用方面缺乏系统性理解的空白，从而识别出两个领域的有前途的未来方向。

Jul, 2023

人机协作方法构建反仇恨言论对话数据集

本文介绍了一种混合方法收集在线仇恨言论和非政府组织的多轮对话数据，从而帮助训练自然语言生成模型以自动化反击网络仇恨言论。

Nov, 2022

不可恶言相向：反击网络仇恨言论

本文针对社交媒体上的仇恨言论问题，提出了一种基于对抗性言论的解决方案。作者构建并发布了首个基于 YouTube 评论的对抗性言论数据集，对数据集展开了详尽的分析，并最终训练出了能够在视频评论中自动检测对抗性言论的机器学习模型。

Aug, 2018

分析 Twitter 上的仇恨与对立言论账户

本研究发现 Twitter 的在线仇恨言论与相应的反言论使用了不同的语言和策略，并且经过一些分析和建模，能够对这些用户进行可靠的分类以进一步研究。

Dec, 2018

社交媒体中什么样的仇恨言论的争议方面可以得到可靠识别？

本文通过对 Hateval 语料库进行人工标注并评估，探讨了大型语言模型中关于憎恨言论的论述元素自动识别的可靠性，发现某些元素相对可靠，对于那些错误率较高的元素，其争议点分析和适当调整后能够更为可靠的识别。

Jun, 2023

憎恨源于无知！对抗言语仇恨中的说服方式归纳

评估反对仇恨言论的最佳方法，研究将说服模式分为理性、情感和可信度，并评估其在封闭和开放的对话互动中的使用，揭示不同模式在反对仇恨评论和话题层面上的微妙差异以及理性作为说服模式的支持回复更多的潜力。

Mar, 2024

CONAN - COunter NArratives through Nichesourcing: 一个多语言的回应数据集，以打击网络仇恨言论

该研究描述了多个 NGO 的百余名熟练操作员联合创建的第一个大尺度的恶意言论及对抗文本对的多语种数据集，并提供了关于数据扩增、恶意类型和回应类型等额外的注释。

Oct, 2019