基于多任务指令调优与 RLAIF 的意图条件和无毒抗辩生成

Mar, 2024

基于多任务指令调优与 RLAIF 的意图条件和无毒抗辩生成

Intent-conditioned and Non-toxic Counterspeech Generation using Multi-Task Instruction Tuning with RLAIF

Amey Hengle, Aswini Kumar, Sahajpreet Singh, Anil Bandhakavi, Md Shad Akhtar...

TL;DRCoARL 是一种新颖的框架，通过模拟憎恨言论中社会偏见的语用含义，增强了对抗性言论生成，优于现有基准，得到了广泛的人工评估支持。

Abstract

counterspeech, defined as a response to mitigate online hate speech, is increasingly used as a non-censorial solution. Addressing hate speech

counterspeech hate speech language models social biases coarl

发现论文，激发创造

藏在袖子里的反驳言论！意图分布学习和持久融合用于基于意图的反驳言论生成

研究利用多种具有不同意图的对话反驳手段作为对抗仇恨言论的方法，提出了一个含有五种不同意图的 IntentCONAN 数据集，同时利用 QUARC 模型进行反驳手段的生成，并证明该模型相比其他基线模型在评估指标上性能平均提高了 10％以上。

May, 2023

应对仇恨言论的受约束大型语言模型

利用大型语言模型生成有限制条件的反抗言论，并研究其对在线环境的影响和生成方法的语言特征。

Mar, 2024

自我权衡：通过注意力规范化改进仇恨言论对抗生成

介绍了使用注意力正则化技术改进预训练变换器语言模型（PLMs）生成对抗叙事的能力，实验表明，正则化的模型在大多数情况下能够产生比现有方法更好的对抗叙事，尤其是在训练数据中不存在仇恨目标的情况下。

Sep, 2023

应对仇恨言论的自然语言处理：概述和操作指南

近年来，反言论已经成为打击网络仇恨的最有希望的策略之一。这些非升级回应在保护用户言论自由的同时，可以在减少在线和离线暴力方面产生明显影响。本文提供了关于进行反言论研究的指南，通过详细的实例描述了相关步骤，并提供了从自然语言处理研究的最佳实践。最后，我们讨论了自然语言处理中反言论研究的挑战和未来方向。

Mar, 2024

HateRephrase: 在线帖子中使用大型语言模型进行零次和少次转换减少仇恨强度

研究表明，使用大型语言模型（LLMs）在检测潜在仇恨言论并在发布前对其进行重新表述方面表现优异，进而减少其仇恨程度而不改变原始文本的语义意义。

Oct, 2023

社交媒体上的仇恨言论反制：仇恨言论和反言论的大规模分类

通过使用自我标记的群体进行有组织在线仇恨言论和反言论，研究使用集成学习算法识别有组织在线仇恨言论和反言论，发现自动化方法在评估社交媒体上协调反言论对稳定对话的影响的潜力。

Jun, 2020

使用预训练语言模型生成反对仇恨言论的对比研究

本研究旨在使用预训练的语言模型对抗英语在线仇恨言论，我们发现自回归模型与随机解码结合是最有前途的；同时研究发现成功的反目标试验关键不在于整体相似性，而是训练数据中的特定子集与测试目标的共性。最后，我们提出了一种管道技术，将自动生成的反叙事加以自动后期编辑以提高其质量。

Apr, 2022

生成、剪枝、选择：针对在线仇恨言论的反驳言论生成管道

本文提出了一种三模块的处理方法，包括生成对抗语言的多样性解决方案，使用 BERT 模型过滤语法不正确的方法和使用新颖的基于检索的方法选择最相关的反对言论来有效防止仇恨言论的不断增加。

Jun, 2021

探索网络伤害缓解的逆行言论

用计算机科学的方法对社会科学领域中的对抗性言论研究进行系统性回顾，比较方法和结果，以填补目前在对抗性言论效用方面缺乏系统性理解的空白，从而识别出两个领域的有前途的未来方向。

Jul, 2023

DisCGen: 基于话语的抵制言论生成框架

自动对抗言论生成可以帮助社交媒体上打击仇恨内容的有效方法，但生成的对抗言论只有在基于话题、受众和敏感性的背景下才能可行，因为这些因素影响其有效性和适当性。我们提出了一个基于话语理论的新框架，以研究将对抗言论与仇恨评论连接起来的推理链接。在这个框架中，我们提出了：i) 从话语框架中导出的对抗言论分类法，ii) 基于话语理论的上下文化对抗言论生成策略。为了构建和验证这个框架，我们提供了一个从 Reddit 收集实际数据集的过程。利用这个过程，我们手动注释了一个由 3.9k 个 Reddit 评论对组成的数据集，以确定其中是否存在仇恨言论和对抗言论。我们对这些对进行了注释，并提供了重新表述的对应项，以消除冒犯和第一人称参考。我们证明，通过使用我们的数据集和框架，大型语言模型可以生成基于话语理论的上下文化对抗言论。根据我们的人工评估，我们的方法可以作为应对话语不可知模型的重大故障的一种保护措施。

Nov, 2023