可解释性与仇恨言论：结构化解释提高社交媒体审核员的速度

ACLJun, 2024

可解释性与仇恨言论：结构化解释提高社交媒体审核员的速度

Explainability and Hate Speech: Structured Explanations Make Social Media Moderators Faster

Agostina Calabrese, Leonardo Neves, Neil Shah, Maarten W. Bos, Björn Ross...

TL;DR通过研究，我们发现，结构化的解释能够降低现实世界的内容审查员的决策时间 7.4%，而通用解释对其速度没有影响且常被忽视。

Abstract

content moderators play a key role in keeping the conversation on social media healthy. While the high volume of content they need to judge represents a bottleneck to the moderation pipeline, no studies have explored how models could support them to make faster decisions. There is, by

content moderators social media content moderation hate speech explanations

发现论文，激发创造

评估 GPT-3 生成的针对仇恨性内容审核的说明

本研究通过对使用大型语言模型对仇恨言论生成解释的分析框架的提出以及对 2400 位受访者的调查，发现生成的解释在语言流畅性、信息量、说服力和逻辑准确性方面都获得了高评价，但不同提示策略会影响解释的说服力，可能会导致对内容是否仇恨的错误判断。因此，在内容审核中应谨慎使用大型语言模型 - generated 的解释。

May, 2023

迈向 “公正解释” 的概念化：针对内容审核员的反亚裔仇恨言论解释的不对称影响

最近在 AI 可解释性和公平性交叉领域的研究集中在解释如何提高人类加 AI 任务性能，以公平性指标评估。我们提出了对 “公平解释” 的特征进行表征，即不对特定人群产生负面影响的解释。我们提出了一种新颖的 “公平解释” 评估方法，不仅基于准确率和标签时间，还考虑了解释对不同用户群体的心理影响（心理不适，刻板印象激活和感知工作负荷）的多个指标。我们将该方法应用于潜在的仇恨言论的内容审查，以及其对亚洲和非亚洲代理审查员的差异影响，包括解释方法（显著性地图和反事实解释）。我们发现，显著性地图通常表现更好，显示出较少的不公平证据（群体和个体）比反事实解释。

Oct, 2023

偏见 X：对含有社会隐含偏见的有害内容进行 “缓慢思考” 辅助管理

引入 BiasX 框架，通过大规模的众包用户研究，探索使用自由文本解释内容中隐含的社会偏见，以有效增强内容审核设置，我们发现，参与者因正确识别微妙的（非）有毒内容而受益。解释的质量很关键，完美的机器生成解释（+2.4% 的有毒难题）帮助不如专业撰写的人类解释（+7.2%）。我们的结果展示了使用自由文本解释鼓励更加深思熟虑的毒性审核的承诺。

May, 2023

探索 LLMs 用于仇恨言论检测：优势和脆弱性

利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型，研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息，并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%)，而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%)；此外，提供了大型语言模型无法对决策进行分类和解释的错误案例分类，这些薄弱点自动构成这些模型的越狱提示，需要研发产业规模的安全技术来增强模型对抗此类提示。

Oct, 2023

利用可解释性设计对抗攻击并评估仇恨言论检测模型的攻击韧性

本研究综合并比较了各种仇恨言论检测模型的鲁棒性，并使用可解释性技术评估了这些模型对抗性攻击的鲁棒性，从而发现了一些潜在的漏洞和强项，并为创建更加鲁棒和可靠的检测系统打下了基础。

May, 2023

社交媒体内容算法化审核中被忽视的意图角色

通过考察自动检测和审查系统的最新发展以及训练数据集的成熟度，探讨了作者意图对于内容审查系统的重要性，并提出了改善自动检测和审查系统以符合道德和政策观念的策略性变革。

May, 2024

解释的力量：走向自动去偏见的仇恨言论检测

本研究提出了一种自动的误用检测器，该检测器依赖于解释方法来检测潜在的偏见，并基于此构建了端到端的去偏扭框架，适用于文本分类器而无需任何外部资源。

Sep, 2022

仇恨言论管控的最新进展：多模态和大模型的作用

在在线交流的不断演变中，如何进行仇恨言论的管理成为一个复杂的挑战，而数字内容的多模态性质进一步加大了这一挑战。本综述全面调查了仇恨言论管理的最新进展，着重介绍了大型语言模型（LLMs）和大型多模态模型（LMMs）在其中的重要作用。通过对当前文献的深入分析，我们揭示了文本、视觉和听觉元素在传播仇恨言论中的微妙相互影响。我们发现了一种明显趋势，即主要通过整合这些模态来处理复杂性和微妙性问题。我们重点关注了 LLMs 和 LMMs 所带来的进展，这些进展已经开始重新定义检测和管理能力的边界。我们在研究中鉴定了现有的空白领域，特别是在涉及少数语言和文化的情况下，并强调了处理低资源环境的解决方案的需求。综述以展望未来的角度结束，概述了未来研究的潜在方向，包括探索新的人工智能方法论、在管理中的伦理治理以及开发更加细致入微、具有上下文意识的系统。这个全面概述的目标是促进进一步的研究，并推动协作努力，朝着更加复杂、负责任和以人为中心的数字时代仇恨言论管理方法的发展。

Jan, 2024

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021

HARE：可解释的仇恨言论检测配有逐步推理

通过使用大型语言模型 (LLM) 的推理能力填补对仇恨言论解释中的知识缺口，我们提出了一种新的仇恨言论检测框架 HARE，该方法使用模型生成数据相较于已有人工注释的基线，能够持续优于其他方法，并 verbess ustheeoub 井 unseendatasets 数据集的泛化性能。

Nov, 2023