使用机器学习模型对社交媒体毒性评论进行分类
本文使用数据科学的现代工具将原始文本转化成关键特征,并使用阈值法或学习算法对其进行分类以监控具有攻击性的网络对话,通过系统评估 62 个分类器,从 19 个主要算法组中抽取特征并分析其准确性及相对执行时间。在语法、情感、情绪以及离群字典的 28 个特征中,一个简单的脏词列表被证明是最有预测性的评价有攻击性评论的方法,其中基于树的算法提供最透明易懂的规则,并排列特征的预测贡献。
Oct, 2018
本文研究了机器学习模型在对包含多种形式的细微虐待语言(如敌意、讽刺和概括等)的不健康在线会话进行分类的应用。结合包含 7 种细微有毒评论的公共数据集,我们成功地对这些评论进行了分类和判别,并揭示了对于不同种类的不健康评论,其中,敌意评论比其他类型更容易检测。同时,情感分析表明,多数类型的有害评论与轻微负面情绪相关联,其中敌意评论是最具负面情绪的类型。
Jun, 2021
该论文评估了多种最先进的模型,特别关注减少模型对一些少数群体的偏见,提出了一个多任务学习模型以及一系列深度学习模型,并使用特定的指标测试这些身份群体中意料之外的模型偏见。
Sep, 2019
使用 BERT 模型,通过对权重损失的加权处理,检测有毒评论并减少对包括种族、性别、宗教在内的身份特征的意外偏见。与传统的逻辑回归模型相比,经过微调的 BERT 模型在分类和偏见减少方面表现得更好,具有 89% 的准确率。
Nov, 2023
本文描述了 'Moj Masti' 团队提出的系统,使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据,重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务,最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能,并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能,从而将我们放在了排行榜的第一位。
Jan, 2022
本研究调查了 17280 名互联网用户对什么构成毒性内容的期望不同,发现那些历史上处于骚扰风险中的群体更可能将 Reddit、Twitter 或 4chan 上的随机评论标记为有毒,而那些亲身经历过骚扰的人也更可能这样做。基于我们的发现,我们展示了目前的一款面向所有用户的毒性分类算法 Perspective API,如何通过个性化模型调整平均提高 86%的准确性。最终,我们强调当前的缺陷和新的设计方向,以提高毒性内容分类器的公平性和效果。
Jun, 2021
本文比较评估了使用 transformers 和传统机器学习模型在 Jigsaw 最近发布的毒性严重度测量数据集上的表现,并通过可解释性分析展示了模型预测中的问题。
Jun, 2022
本文提出了一种利用机器学习方法,针对推特中的恶意信息、攻击性言论以及清晰文本进行分类的方法,并通过比较实验,得出了最高达 95.6% 准确率的分类模型,同时还开发了中间模块使用户可以方便地访问此工具。
Sep, 2018
本研究利用不同角度的数据清洗和特征提取操作,得到不同的有毒评论训练集,并基于 TFIDF 和微调的 Bert 模型进行模型构建,最终将代码封装成软件以实现有毒评论的实时评分。
Feb, 2022