本研究通过使用新的数据集及一系列特征,包括 n-grams、skip-grams 和基于聚类的单词表示等,运用监督式分类方法,分别采用单个分类器、集成分类器和堆叠泛化等方法来区分社交媒体上的普通粗口和仇恨言论,获得了 80% 的准确率。然而,研究发现要区分仇恨言论和粗口并不是一件简单的任务。
Mar, 2018
通过改进的数据集在汉语中测试大型语言模型(LLMs)对于侮辱性内容的检测,研究表明现有模型在存在这些干扰时检测侮辱性内容的性能明显不足,强调了对进阶技术的迫切需求以应对逃避检测机制的不断演变的策略。
Jun, 2024
该论文基于 Transformer 语言模型,研究了在社交媒体文本中检测和分类仇恨的问题,并将其固定为三类,同时证明了多语言训练模式的有效性和特定特征对体系结构分类表现的影响。
Jan, 2021
本文对社交媒体上仇恨言论检测和追踪的问题进行了系统综述,重点关注自然语言处理和深度学习技术,概述了该领域的文献、方法和限制,并提出未来研究方向。
May, 2021
本综述旨在总结现有关于自然语言处理中针对在线仇恨言论检测模型泛化能力的研究结果、对现有模型泛化难题的原因进行解释、总结已有解决方案,并提出未来改善检测模型泛化能力的研究方向。
Feb, 2021
调查了当前针对滥用语言的自动检测方法以及在线平台的内容管理政策,研究方向及未来工作发展方向。
通过强化学习,我们介绍了一种自动文本隐私保护框架,该框架通过针对大型语言模型进行微调,产生能够在保持准确性、连贯性和隐私性之间达到平衡的重写文本,并在大规模的测试集上进行了全面评估,并成功规避了多种自动化作者识别攻击。
May, 2024
本研究旨在使用多种算法测试识别冒犯帖子的能力,并评估其对多种评估方法的性能,以减少这些语言对人工审核者的伤害。通过实验,本项目能够激发对识别方法和内容的未来研究。
Dec, 2023
本文介绍了一种使用多个标签注释恶意在线言论的方法,强调了注释应该是细致、准确的。作者发布了一个高质量的数据集,使用六个标签注释了超过 40,000 条有关移民的推文,在此数据集上训练模型的表现优于基准数据集。
Oct, 2022
本文介绍了我们基于梯度提升机、BERT 和 LASER 嵌入式开发的 HateMonitor 模型,在 Indo-European Languages HASOC(FIRE 2019 的任务之一)中排名第一,用于令人讨厌和令人反感的内容识别。
Sep, 2019