使用机器学习模型对社交媒体毒性评论进行分类

Apr, 2023

使用机器学习模型对社交媒体毒性评论进行分类

Classification of social media Toxic comments using Machine learning models

K.Poojitha, A.Sai Charish, M.Arun Kuamr Reddy, S.Ayyasamy

TL;DR研究讨论了社交媒体平台上存在的有害评论问题，提出使用 Lstm-cnn 模型构建分类器，以高精度区分有毒和无毒评论，并帮助组织更好地检查评论区的有害性。

Abstract

The abstract outlines the problem of toxic comments on social media platforms, where individuals use disrespectful, abusive, and unreasonable language that can drive users away from discussions. This behavior is referred to as →

toxic comments anti-social behavior online harassment classifier lstm-cnn model

发现论文，激发创造

在线毒性检测的机器学习套件

本文使用数据科学的现代工具将原始文本转化成关键特征，并使用阈值法或学习算法对其进行分类以监控具有攻击性的网络对话，通过系统评估 62 个分类器，从 19 个主要算法组中抽取特征并分析其准确性及相对执行时间。在语法、情感、情绪以及离群字典的 28 个特征中，一个简单的脏词列表被证明是最有预测性的评价有攻击性评论的方法，其中基于树的算法提供最透明易懂的规则，并排列特征的预测贡献。

Oct, 2018

卷积神经网络用于有害评论分类

通过使用卷积神经网络方法来识别文本中有害评论，取得了很好的效果，为其在过滤互联网内容中的作用提供了充分的证据。

Feb, 2018

预测不健康的线上对话中不同类型的微妙毒性

本文研究了机器学习模型在对包含多种形式的细微虐待语言（如敌意、讽刺和概括等）的不健康在线会话进行分类的应用。结合包含 7 种细微有毒评论的公共数据集，我们成功地对这些评论进行了分类和判别，并揭示了对于不同种类的不健康评论，其中，敌意评论比其他类型更容易检测。同时，情感分析表明，多数类型的有害评论与轻微负面情绪相关联，其中敌意评论是最具负面情绪的类型。

Jun, 2021

多任务学习在毒性评论检测中降低模型偏差的实证分析

该论文评估了多种最先进的模型，特别关注减少模型对一些少数群体的偏见，提出了一个多任务学习模型以及一系列深度学习模型，并使用特定的指标测试这些身份群体中意料之外的模型偏见。

Sep, 2019

使用深度学习方法确定有毒评论和意外模型偏差最小化

使用 BERT 模型，通过对权重损失的加权处理，检测有毒评论并减少对包括种族、性别、宗教在内的身份特征的意外偏见。与传统的逻辑回归模型相比，经过微调的 BERT 模型在分类和偏见减少方面表现得更好，具有 89% 的准确率。

Nov, 2023

多语种社交媒体内容的毒性检测

本文描述了 'Moj Masti' 团队提出的系统，使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据，重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务，最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能，并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能，从而将我们放在了排行榜的第一位。

Jan, 2022

为多元视角设计有害内容分类

本研究调查了 17280 名互联网用户对什么构成毒性内容的期望不同，发现那些历史上处于骚扰风险中的群体更可能将 Reddit、Twitter 或 4chan 上的随机评论标记为有毒，而那些亲身经历过骚扰的人也更可能这样做。基于我们的发现，我们展示了目前的一款面向所有用户的毒性分类算法 Perspective API，如何通过个性化模型调整平均提高 86％的准确性。最终，我们强调当前的缺陷和新的设计方向，以提高毒性内容分类器的公平性和效果。

Jun, 2021

哪种更有毒？来自 Jigsaw 对有毒评论的严重程度评估发现

本文比较评估了使用 transformers 和传统机器学习模型在 Jigsaw 最近发布的毒性严重度测量数据集上的表现，并通过可解释性分析展示了模型预测中的问题。

Jun, 2022

基于 N-gram 和 TFIDF 的机器学习方法在 Twitter 上检测仇恨言论和攻击性语言

本文提出了一种利用机器学习方法，针对推特中的恶意信息、攻击性言论以及清晰文本进行分类的方法，并通过比较实验，得出了最高达 95.6% 准确率的分类模型，同时还开发了中间模块使用户可以方便地访问此工具。

Sep, 2018

毒性评论猎手：评分有毒评论的严重程度

本研究利用不同角度的数据清洗和特征提取操作，得到不同的有毒评论训练集，并基于 TFIDF 和微调的 Bert 模型进行模型构建，最终将代码封装成软件以实现有毒评论的实时评分。

Feb, 2022