偏见 X：对含有社会隐含偏见的有害内容进行 “缓慢思考” 辅助管理

May, 2023

偏见 X：对含有社会隐含偏见的有害内容进行 “缓慢思考” 辅助管理

BiasX: "Thinking Slow" in Toxic Content Moderation with Explanations of Implied Social Biases

Yiming Zhang, Sravani Nanduri, Liwei Jiang, Tongshuang Wu, Maarten Sap

TL;DR引入 BiasX 框架，通过大规模的众包用户研究，探索使用自由文本解释内容中隐含的社会偏见，以有效增强内容审核设置，我们发现，参与者因正确识别微妙的（非）有毒内容而受益。解释的质量很关键，完美的机器生成解释（+2.4% 的有毒难题）帮助不如专业撰写的人类解释（+7.2%）。我们的结果展示了使用自由文本解释鼓励更加深思熟虑的毒性审核的承诺。

Abstract

Toxicity annotators and content moderators often default to mental shortcuts when making decisions. This can lead to subtle toxicity being missed, and seemingly toxic but harmless content being over-detected. We introduce BiasX, a framework that enhances content moderation setups with

toxicity annotation content moderation bias detection free-text explanation crowdsourced user study

发现论文，激发创造

可解释性与仇恨言论：结构化解释提高社交媒体审核员的速度

通过研究，我们发现，结构化的解释能够降低现实世界的内容审查员的决策时间 7.4%，而通用解释对其速度没有影响且常被忽视。

Jun, 2024

Tox-BART：利用毒性属性生成隐含仇恨言论的解释

利用语言模型为隐藏的仇恨帖子生成解释是一个活跃的研究领域，解释的目的是明确潜在的刻板印象并帮助内容管理员。研究通常结合前 k 个相关的知识图谱 (KG) 元组来提供世界知识并改善标准指标的性能，但我们的研究提出了冲突的证据，认为 KG 元组的质量在生成隐含解释方面的作用不明确。因此，将外部毒性信号纳入的简化模型优于 KG 融合模型。在 SBIC（LatentHatred）数据集上，我们观察到相当的性能表现，BLEU、ROUGE-L 和 BERTScore 的性能变化分别为 + 0.44 (+0.49)、+1.83 (-1.56) 和 - 4.59 (+0.77)。进一步的人工评估和错误分析表明，我们提出的设置比零样本 GPT-3.5 产生了更精确的解释，突显了任务的复杂性。

Jun, 2024

ToxVis: 交互式可视化实现隐式与显式毒性检测模型的可解释性

通过使用深度学习解释技术，本研究开发了一个可视化交互及可解释的工具 ToxVis，通过细分隐性仇恨言论、明显性仇恨言论、非恶意内容三个类别，对在线暴恐言论进行分类，为内容审查提供了一个有价值的手段。

Mar, 2023

ToxCCIn: 毒性内容分类与解释能力

本文提出一种改进 transformer-based models 解释性的技术，通过假设一篇文章至少和其最有毒的部分一样有毒，并将其纳入训练过程来提高模型的可解释性，实验证明该方法优于逻辑回归分析，具备更高的质量和解释性。

Mar, 2021

由专家指导的毒性符号消除以实现无偏生成

通过使用 DESM 提供的网站，您可以在输入框中输入您的想法或问题，然后 DES 将基于这个输入提供一个自动生成的并针对您输入的文本进行适当恢复或继续的建议。

May, 2024

社交媒体上毒性建模中的跨地理偏见检测

本文提出了一种弱监督的方法来检测在更广泛的地理文化背景下的词汇偏见，通过公开获取的有毒检测模型案例研究，展示了我们的方法如何识别跨地理误差的显著群体，并展示这些分组如何反映这些地理背景下人类对攻击性和无攻击性语言的判断.

Apr, 2021

多任务学习在毒性评论检测中降低模型偏差的实证分析

该论文评估了多种最先进的模型，特别关注减少模型对一些少数群体的偏见，提出了一个多任务学习模型以及一系列深度学习模型，并使用特定的指标测试这些身份群体中意料之外的模型偏见。

Sep, 2019

ToXCL: 毒性言论检测和解释的统一框架

为了解决网络毒性言论的问题，本文提出了一个统一框架 ToXCL，用于检测和解释隐含的毒性言论，并取得了最新最有效的结果，明显优于基线模型。

Mar, 2024

跨多元社群中有毒评论识别的主观建模（通过模仿标注者注释）

在线毒性讨论的普及和影响使内容管理至关重要。自动化系统在识别有毒评论和减少对人工管理的依赖方面起着至关重要的作用。然而，识别多样化社区的有毒评论仍然存在挑战，本研究对此进行了探讨。

Nov, 2023

使用生成式提示推断进行毒性检测

本文探讨零样本基于提示的毒性检测方法的生成变量，通过对提示工程的全面试验在三个社交媒体数据集上进行验证，并讨论了自诊断及其伦理影响的有趣方面。

May, 2022