面向知识驱动的仇恨言论反叙事生成

ACLJun, 2021

面向知识驱动的仇恨言论反叙事生成

Towards Knowledge-Grounded Counter Narrative Generation for Hate Speech

Yi-Ling Chung, Serra Sinem Tekiroglu, Marco Guerini

TL;DR该研究提出一种基于外部知识库的完整反叙事生成管道，以对抗网上仇恨。实验证明，该模型可以在领域内和跨领域环境下生成适合和信息丰富的反叙事。

Abstract

Tackling online hatred using informed textual responses - called counter narratives - has been brought under the spotlight recently. Accordingly, a research line has emerged to automatically generate counter narratives<

online hatred counter narratives automated generation neural approaches knowledge repository

发现论文，激发创造

生成针对在线仇恨言论的反叙事：数据与策略

本研究旨在有效收集应对仇恨言论的响应，利用大规模的无监督语言模型生成银标注数据，并采用最佳注释策略 / 神经网络架构来进行专家验证 / 后期编辑。

Apr, 2020

人机协同进行数据采集：一个打击在线仇恨言论的多目标对抗性叙述数据集

本文提出了一种新型的人机交互数据收集方法，其中一个生成式语言模型通过使用其自身数据生成新的训练样本，并由专家审查 / 编辑来迭代地改善。结果表明，该方法可扩展并促进多样化、新颖及高效收集数据。生成的数据集是目前唯一面向专家的多重 HS/CN 目标数据集。

Jul, 2021

人机协作方法构建反仇恨言论对话数据集

本文介绍了一种混合方法收集在线仇恨言论和非政府组织的多轮对话数据，从而帮助训练自然语言生成模型以自动化反击网络仇恨言论。

Nov, 2022

CONAN - COunter NArratives through Nichesourcing: 一个多语言的回应数据集，以打击网络仇恨言论

该研究描述了多个 NGO 的百余名熟练操作员联合创建的第一个大尺度的恶意言论及对抗文本对的多语种数据集，并提供了关于数据扩增、恶意类型和回应类型等额外的注释。

Oct, 2019

自我权衡：通过注意力规范化改进仇恨言论对抗生成

介绍了使用注意力正则化技术改进预训练变换器语言模型（PLMs）生成对抗叙事的能力，实验表明，正则化的模型在大多数情况下能够产生比现有方法更好的对抗叙事，尤其是在训练数据中不存在仇恨目标的情况下。

Sep, 2023

DisCGen: 基于话语的抵制言论生成框架

自动对抗言论生成可以帮助社交媒体上打击仇恨内容的有效方法，但生成的对抗言论只有在基于话题、受众和敏感性的背景下才能可行，因为这些因素影响其有效性和适当性。我们提出了一个基于话语理论的新框架，以研究将对抗言论与仇恨评论连接起来的推理链接。在这个框架中，我们提出了：i) 从话语框架中导出的对抗言论分类法，ii) 基于话语理论的上下文化对抗言论生成策略。为了构建和验证这个框架，我们提供了一个从 Reddit 收集实际数据集的过程。利用这个过程，我们手动注释了一个由 3.9k 个 Reddit 评论对组成的数据集，以确定其中是否存在仇恨言论和对抗言论。我们对这些对进行了注释，并提供了重新表述的对应项，以消除冒犯和第一人称参考。我们证明，通过使用我们的数据集和框架，大型语言模型可以生成基于话语理论的上下文化对抗言论。根据我们的人工评估，我们的方法可以作为应对话语不可知模型的重大故障的一种保护措施。

Nov, 2023

RAUCG：用于对抗仇恨言论的检索增强无监督对抗性叙述生成

使用检索增强的无监督式反叙事生成方法，从外部统计数据中扩展反知识，并将其映射到反叙事，以应对自动生成反叙事所面临的限制。具有出色的性能表现和更强的泛化能力。

Oct, 2023

使用大型语言模型的多方面对抗叙述评估框架

通过新的评估框架，我们提出了一种新颖的方法，让 LLMs 为生成的对抗叙事候选者提供评分和反馈，从而弥补以往评估方法的局限性，并显示出作为多方面、无参考和可解释的对抗叙事评估者的潜力。

Feb, 2024

社交媒体上的仇恨言论反制：仇恨言论和反言论的大规模分类

通过使用自我标记的群体进行有组织在线仇恨言论和反言论，研究使用集成学习算法识别有组织在线仇恨言论和反言论，发现自动化方法在评估社交媒体上协调反言论对稳定对话的影响的潜力。

Jun, 2020

简约论证：仇恨言论反叙事的注解

本文为便于自动对抗话语生成而对 Hateval 恶意言论推文语料库进行了扩充，不仅将手写对抗话语与推文关联，还基于 Wagemann 的论证信息对推文进行了注释，在自动检测及人工检测方面都取得了令人满意的结果。

Aug, 2022