在大型语言模型中通过思维链条推理来调节新的网络仇恨浪潮

Dec, 2023

在大型语言模型中通过思维链条推理来调节新的网络仇恨浪潮

Moderating New Waves of Online Hate with Chain-of-Thought Reasoning in Large Language Models

Nishant Vishwamitra, Keyan Guo, Farhan Tajwar Romit, Isabelle Ondracek, Long Cheng...

TL;DR在线仇恨是一个不断升级的问题，对互联网用户的生活产生负面影响，并由于不断发展的事件而面临快速变化，进而导致新的在线仇恨浪潮构成重大威胁。为了解决这一关键问题，我们提出了一种名为 HATEGUARD 的新型框架，通过利用最近引入的思维链（CoT）提示技术，借助大型语言模型（LLMs）的能力，采用基于推理的方法有效地管理新的在线仇恨浪潮，并通过自动生成和更新检测提示来实现基于提示的零 - shot 检测，以应对新的在线仇恨浪潮。

Abstract

online hate is an escalating problem that negatively impacts the lives of Internet users, and is also subject to rapid changes due to evolving events, resulting in new waves of →

online hate new waves detection hateguard framework

发现论文，激发创造

仇恨言论管控的最新进展：多模态和大模型的作用

在在线交流的不断演变中，如何进行仇恨言论的管理成为一个复杂的挑战，而数字内容的多模态性质进一步加大了这一挑战。本综述全面调查了仇恨言论管理的最新进展，着重介绍了大型语言模型（LLMs）和大型多模态模型（LMMs）在其中的重要作用。通过对当前文献的深入分析，我们揭示了文本、视觉和听觉元素在传播仇恨言论中的微妙相互影响。我们发现了一种明显趋势，即主要通过整合这些模态来处理复杂性和微妙性问题。我们重点关注了 LLMs 和 LMMs 所带来的进展，这些进展已经开始重新定义检测和管理能力的边界。我们在研究中鉴定了现有的空白领域，特别是在涉及少数语言和文化的情况下，并强调了处理低资源环境的解决方案的需求。综述以展望未来的角度结束，概述了未来研究的潜在方向，包括探索新的人工智能方法论、在管理中的伦理治理以及开发更加细致入微、具有上下文意识的系统。这个全面概述的目标是促进进一步的研究，并推动协作努力，朝着更加复杂、负责任和以人为中心的数字时代仇恨言论管理方法的发展。

Jan, 2024

重新审视仇恨言论基准：从数据筛选到系统部署

该研究旨在提出一种名为 GOTHate 的数据集，包含了多语言和多主题，并引入内源信号来增强恶意言论检测任务。作者开发出了一种多语言模型 HEN-mBERT，其通过历史、拓扑和范例等内源信号来改善语义分析。实验结果表明，该模型相较于其他模型提升了 2.5% 的整体宏 F1 值和 5% 的恶意言论 F1 值。

Jun, 2023

HateRephrase: 在线帖子中使用大型语言模型进行零次和少次转换减少仇恨强度

研究表明，使用大型语言模型（LLMs）在检测潜在仇恨言论并在发布前对其进行重新表述方面表现优异，进而减少其仇恨程度而不改变原始文本的语义意义。

Oct, 2023

利用人工智能打击网络仇恨：探索大型语言模型在仇恨言论检测中的挑战和机遇

我们的研究通过综述和实证分析，揭示大型语言模型在检测恶意言论中的能力和限制，强调它们作为分类器的角色以及发现优秀的模型和他们的特点和训练方法，为理解大型语言模型在关键的恶意言论检测领域的能力做出贡献。

Mar, 2024

整合对抗仇恨言论的策略 —— 利用说服对话

社交媒体平台上存在大量的仇恨评论。我们提出了一种用于生成反驳仇恨评论的可控策略的方法，并通过特征控制响应生成，研究了鼓励长期解决方案的可行性。

Jan, 2024

应对仇恨言论的受约束大型语言模型

利用大型语言模型生成有限制条件的反抗言论，并研究其对在线环境的影响和生成方法的语言特征。