ToxCCIn: 毒性内容分类与解释能力

ACLMar, 2021

ToxCCIn: Toxic Content Classification with Interpretability

Tong Xiang, Sean MacAvaney, Eugene Yang, Nazli Goharian

TL;DR本文提出一种改进 transformer-based models 解释性的技术，通过假设一篇文章至少和其最有毒的部分一样有毒，并将其纳入训练过程来提高模型的可解释性，实验证明该方法优于逻辑回归分析，具备更高的质量和解释性。

Abstract

Despite the recent successes of transformer-based models in terms of effectiveness on a variety of tasks, their decisions often remain opaque to humans. Explanations are particularly important for tasks like offensive language or →

transformer-based models interpretability toxicity detection training process human study

发现论文，激发创造

2021 年 SemEval 第 5 任务：毒性在哪里？：利用 Transformer 从在线评论中提取多个毒性段

该论文描述了 Cisco 团队提出的用于发现英文文本中的有毒段落的系统，该系统主要采用了序列标注和依赖解析方法，并提供了其结果和模型表现的详细分析。

May, 2021

ToxVis: 交互式可视化实现隐式与显式毒性检测模型的可解释性

通过使用深度学习解释技术，本研究开发了一个可视化交互及可解释的工具 ToxVis，通过细分隐性仇恨言论、明显性仇恨言论、非恶意内容三个类别，对在线暴恐言论进行分类，为内容审查提供了一个有价值的手段。

Mar, 2023

ToXCL: 毒性言论检测和解释的统一框架

为了解决网络毒性言论的问题，本文提出了一个统一框架 ToXCL，用于检测和解释隐含的毒性言论，并取得了最新最有效的结果，明显优于基线模型。

Mar, 2024

探索 LLMs 用于仇恨言论检测：优势和脆弱性

利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型，研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息，并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%)，而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%)；此外，提供了大型语言模型无法对决策进行分类和解释的错误案例分类，这些薄弱点自动构成这些模型的越狱提示，需要研发产业规模的安全技术来增强模型对抗此类提示。

Oct, 2023

多语种社交媒体内容的毒性检测

本文描述了 'Moj Masti' 团队提出的系统，使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据，重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务，最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能，并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能，从而将我们放在了排行榜的第一位。

Jan, 2022

可解释性与可解释性在社交媒体抑郁检测中的应用

使用基于 Transformer 的架构来检测和解释用户写作中抑郁症状标记的出现，并生成可解释的基于症状的解释。

Oct, 2023

哪种更有毒？来自 Jigsaw 对有毒评论的严重程度评估发现

本文比较评估了使用 transformers 和传统机器学习模型在 Jigsaw 最近发布的毒性严重度测量数据集上的表现，并通过可解释性分析展示了模型预测中的问题。

Jun, 2022

Tox-BART：利用毒性属性生成隐含仇恨言论的解释

利用语言模型为隐藏的仇恨帖子生成解释是一个活跃的研究领域，解释的目的是明确潜在的刻板印象并帮助内容管理员。研究通常结合前 k 个相关的知识图谱 (KG) 元组来提供世界知识并改善标准指标的性能，但我们的研究提出了冲突的证据，认为 KG 元组的质量在生成隐含解释方面的作用不明确。因此，将外部毒性信号纳入的简化模型优于 KG 融合模型。在 SBIC（LatentHatred）数据集上，我们观察到相当的性能表现，BLEU、ROUGE-L 和 BERTScore 的性能变化分别为 + 0.44 (+0.49)、+1.83 (-1.56) 和 - 4.59 (+0.77)。进一步的人工评估和错误分析表明，我们提出的设置比零样本 GPT-3.5 产生了更精确的解释，突显了任务的复杂性。

Jun, 2024

在线毒性检测的机器学习套件

本文使用数据科学的现代工具将原始文本转化成关键特征，并使用阈值法或学习算法对其进行分类以监控具有攻击性的网络对话，通过系统评估 62 个分类器，从 19 个主要算法组中抽取特征并分析其准确性及相对执行时间。在语法、情感、情绪以及离群字典的 28 个特征中，一个简单的脏词列表被证明是最有预测性的评价有攻击性评论的方法，其中基于树的算法提供最透明易懂的规则，并排列特征的预测贡献。

Oct, 2018

只需一次提示：大型语言模型的提示学习能力对抗有害内容的能力探究

使用大型语言模型和提示学习方法解决有毒内容问题，特别关注有毒内容的分类、有毒区域检测和解毒化三个任务，通过广泛评估发现，与针对特定任务训练的模型相比，具有提示学习的大型语言模型在有毒内容分类和有毒区域检测任务上取得了类似甚至更好的性能，对于解毒化任务，提示学习方法成功降低了平均有毒度，同时保持语义含义。

Aug, 2023