使用预训练语言模型生成反对仇恨言论的对比研究

ACLApr, 2022

使用预训练语言模型生成反对仇恨言论的对比研究

Using Pre-Trained Language Models for Producing Counter Narratives Against Hate Speech: a Comparative Study

Serra Sinem Tekiroglu, Helena Bonaldi, Margherita Fanton, Marco Guerini

TL;DR本研究旨在使用预训练的语言模型对抗英语在线仇恨言论，我们发现自回归模型与随机解码结合是最有前途的；同时研究发现成功的反目标试验关键不在于整体相似性，而是训练数据中的特定子集与测试目标的共性。最后，我们提出了一种管道技术，将自动生成的反叙事加以自动后期编辑以提高其质量。

Abstract

In this work, we present an extensive study on the use of pre-trained language models for the task of automatic counter narrative (CN) generation to fight online hate speech in English. We first present a compara

pre-trained language models counter narrative online hate speech autoregressive models stochastic decodings

发现论文，激发创造

应对仇恨言论的受约束大型语言模型

利用大型语言模型生成有限制条件的反抗言论，并研究其对在线环境的影响和生成方法的语言特征。

Mar, 2024

一种基于 LLM 的评估自动对抗叙事生成方法的排序方法

使用大型语言模型作为评估者，提出了一种对生成的反话进行评估的新方法，通过在锦标赛格式中对生成的反话进行成对比较，建立了一个模型排名流程，并与人类偏好达到了 0.88 的相关性。此外，通过细致的评估和性能分析，发现以聊天为导向的零 - shot 生成模型在此任务中是最佳选择，前提是它们不因安全问题而拒绝生成答案。

Jun, 2024

自我权衡：通过注意力规范化改进仇恨言论对抗生成

介绍了使用注意力正则化技术改进预训练变换器语言模型（PLMs）生成对抗叙事的能力，实验表明，正则化的模型在大多数情况下能够产生比现有方法更好的对抗叙事，尤其是在训练数据中不存在仇恨目标的情况下。

Sep, 2023

生成针对在线仇恨言论的反叙事：数据与策略

本研究旨在有效收集应对仇恨言论的响应，利用大规模的无监督语言模型生成银标注数据，并采用最佳注释策略 / 神经网络架构来进行专家验证 / 后期编辑。

Apr, 2020

使用大型语言模型的多方面对抗叙述评估框架

通过新的评估框架，我们提出了一种新颖的方法，让 LLMs 为生成的对抗叙事候选者提供评分和反馈，从而弥补以往评估方法的局限性，并显示出作为多方面、无参考和可解释的对抗叙事评估者的潜力。

Feb, 2024

巴斯克语和西班牙语反叙事生成：数据创建与评估

Counter Narratives (CNs) are non-negative textual responses to Hate Speech (HS) aiming at defusing online hatred and mitigating its spreading across media, and this paper presents CONAN-EUS, a new Basque and Spanish dataset for CN generation developed through Machine Translation (MT) and professional post-edition, showcasing the benefits of training on post-edited data and multilingual data augmentation for CN generation.

Mar, 2024

人机协同进行数据采集：一个打击在线仇恨言论的多目标对抗性叙述数据集

本文提出了一种新型的人机交互数据收集方法，其中一个生成式语言模型通过使用其自身数据生成新的训练样本，并由专家审查 / 编辑来迭代地改善。结果表明，该方法可扩展并促进多样化、新颖及高效收集数据。生成的数据集是目前唯一面向专家的多重 HS/CN 目标数据集。

Jul, 2021

RAUCG：用于对抗仇恨言论的检索增强无监督对抗性叙述生成

使用检索增强的无监督式反叙事生成方法，从外部统计数据中扩展反知识，并将其映射到反叙事，以应对自动生成反叙事所面临的限制。具有出色的性能表现和更强的泛化能力。

Oct, 2023

人机协作方法构建反仇恨言论对话数据集

本文介绍了一种混合方法收集在线仇恨言论和非政府组织的多轮对话数据，从而帮助训练自然语言生成模型以自动化反击网络仇恨言论。

Nov, 2022

面向知识驱动的仇恨言论反叙事生成

该研究提出一种基于外部知识库的完整反叙事生成管道，以对抗网上仇恨。实验证明，该模型可以在领域内和跨领域环境下生成适合和信息丰富的反叙事。

Jun, 2021