使用 ToxiCR 自动识别有害代码审查

Feb, 2022

使用 ToxiCR 自动识别有害代码审查

Automated Identification of Toxic Code Reviews Using ToxiCR

Jaydeb Sarker, Asif Kamal Turzo, Ming Dong, Amiangshu Bosu

TL;DR此研究提出了 ToxiCR，一种基于监督学习的毒性识别工具，旨在帮助 FOSS 社区处理代码审查交互过程中的有害对话。该工具可以选择十种监督学习算法之一、文本向量化技术之一，以及八个预处理步骤之一，具有良好的判别能力，提高了 95.8％的准确性和 88.9％的 F1 得分。

Abstract

toxic conversations during software development interactions may have serious repercussions on a free and open source software (FOSS) development project. For example, victims of →

toxic conversations free and open source software automated filtering se datasets supervised learning

发现论文，激发创造

在线毒性检测的机器学习套件

本文使用数据科学的现代工具将原始文本转化成关键特征，并使用阈值法或学习算法对其进行分类以监控具有攻击性的网络对话，通过系统评估 62 个分类器，从 19 个主要算法组中抽取特征并分析其准确性及相对执行时间。在语法、情感、情绪以及离群字典的 28 个特征中，一个简单的脏词列表被证明是最有预测性的评价有攻击性评论的方法，其中基于树的算法提供最透明易懂的规则，并排列特征的预测贡献。

Oct, 2018

毒性评论猎手：评分有毒评论的严重程度

本研究利用不同角度的数据清洗和特征提取操作，得到不同的有毒评论训练集，并基于 TFIDF 和微调的 Bert 模型进行模型构建，最终将代码封装成软件以实现有毒评论的实时评分。

Feb, 2022

使用深度学习方法确定有毒评论和意外模型偏差最小化

使用 BERT 模型，通过对权重损失的加权处理，检测有毒评论并减少对包括种族、性别、宗教在内的身份特征的意外偏见。与传统的逻辑回归模型相比，经过微调的 BERT 模型在分类和偏见减少方面表现得更好，具有 89% 的准确率。

Nov, 2023

多语种社交媒体内容的毒性检测

本文描述了 'Moj Masti' 团队提出的系统，使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据，重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务，最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能，并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能，从而将我们放在了排行榜的第一位。

Jan, 2022

通过投票实现毒性分类

通过整合投票和思维链过程的数据集创建机制，本研究提出了一种高质量的开源数据集用于检测有毒内容。这种方法不仅确保了每个样本的多样化分类指标，还包括分类得分和解释性推理。我们利用通过我们提出的机制创建的数据集来训练我们的模型，并将其与现有的广泛使用的检测器进行了比较。这种方法不仅增强了透明度和可定制性，还有助于更好地针对特定用例进行微调。本研究为开发有毒内容检测模型提供了一个稳健的框架，强调了开放性和适应性，从而为更有效和用户特定的内容审核解决方案铺平了道路。

Jun, 2024

毒性检测评估框架：通过反馈评估毒性检测中的基本事实

本文介绍了一种毒性语言检测框架，通过考虑人为因素通过迭代反馈循环来提高毒性基准数据集的可靠性，以平衡性能和毒性避免之间的权衡。

May, 2023

ToxicChat: 揭示现实世界用户与 AI 对话中的隐含挑战

本研究介绍了 ToxicChat，这是一个基于开源聊天机器人的新型基准，用于揭示现实世界中用户与 AI 交互所面临的挑战，并对现有毒性数据集训练的模型进行了系统评估，揭示了其在此独特领域中的不足。该工作为进一步构建用户与 AI 交互的安全健康环境提供了宝贵的资源。

Oct, 2023

为多元视角设计有害内容分类

本研究调查了 17280 名互联网用户对什么构成毒性内容的期望不同，发现那些历史上处于骚扰风险中的群体更可能将 Reddit、Twitter 或 4chan 上的随机评论标记为有毒，而那些亲身经历过骚扰的人也更可能这样做。基于我们的发现，我们展示了目前的一款面向所有用户的毒性分类算法 Perspective API，如何通过个性化模型调整平均提高 86％的准确性。最终，我们强调当前的缺陷和新的设计方向，以提高毒性内容分类器的公平性和效果。

Jun, 2021

多任务学习在毒性评论检测中降低模型偏差的实证分析

该论文评估了多种最先进的模型，特别关注减少模型对一些少数群体的偏见，提出了一个多任务学习模型以及一系列深度学习模型，并使用特定的指标测试这些身份群体中意料之外的模型偏见。

Sep, 2019

2021 年 SemEval 第 5 任务：毒性在哪里？：利用 Transformer 从在线评论中提取多个毒性段

该论文描述了 Cisco 团队提出的用于发现英文文本中的有毒段落的系统，该系统主要采用了序列标注和依赖解析方法，并提供了其结果和模型表现的详细分析。

May, 2021