揭示社交媒体评论的新型身份群体命名实体识别系统
本文通过使用字符n-gram、单词n-gram和单词skip-gram的方法,利用最近发布的annotated dataset建立基于词汇的垃圾言论检测任务,并成功实现了78%的准确率。研究结果表明,区分垃圾言论和粗俗言论之间的主要难题在于歧视。最后,文章提出了未来的研究方向。
Dec, 2017
该研究旨在解决社交媒体上自动检测仇恨言论的问题。作者提出了一种基于深度神经网络结构的特征提取器,在Twitter上的仇恨言论检测方面表现出比目前最佳方法高出5个百分点的效果。
Feb, 2018
本文旨在针对多种不同类型的社交媒体攻击信息进行分类,构建了一个针对这个任务的分层模型,并提供了一个细粒度三层注释方案的 Offensive Language Identification Dataset(OLID)数据集。最后,我们通过实验证明了不同机器学习模型的性能差异。
Feb, 2019
通过信息检索领域的标准方法,采用池化和主动学习技术及任务分解和注释说明技巧,构建了一个更全面的针对 Twitter 中仇恨言论检测的基准数据集,并显示了现有检测模型在这些更广泛的仇恨形式测试中准确度的显著下降。
Jun, 2021
本研究提出了一种针对在线仇恨言论检测的NLP组特定方法,结合历史和语言知识并通过种族和伦理学等角度对模型进行评估,实验结果表明结合历史数据库可以帮助模型识别细微的刻板印象,同时该方法用于检测反犹太主义仇恨言论,成果将现有的反犹太主义研究和语言知识图谱相结合。
Apr, 2023
针对在线仇恨言论的自动检测是NLP领域的一个研究热点。本文通过对不同的仇恨言论检测数据集进行微调,分析了数据集通用性的差异,并证明了数据集的组合能够促进强大的仇恨言论检测模型的发展。
Jul, 2023
本研究介绍了K-HATERS,这是一种用于韩文中仇恨言论检测的新语料库,其中含有大约192K个新闻评论,附有针对特定目标的冒犯程度评分。该语料库是韩文中最大的冒犯性语言语料库,是首个提供针对三级李克特量表的特定目标评分的语料库,能够检测韩文中不同程度的仇恨表达。我们进行实验来展示该语料库的有效性,并与现有数据集进行比较。此外,为了解决人类注释中的潜在噪声和偏差,我们探索了一种新颖的想法,即采用认知反思测试作为标签质量的代理。研究结果表明,得分最低的个体的注释往往会导致针对特定目标群体的预测模型存在偏差,且准确性较低。本研究对于仇恨言论检测和资源构建的自然语言处理研究具有重要贡献。您可以在该URL访问代码和数据集。
Oct, 2023
机器学习(ML)基于内容审查工具对保持在线空间的免受仇恨性沟通至关重要。然而,ML工具的能力仅取决于其所训练的数据的质量。虽然越来越多的证据表明它们在检测针对特定身份的仇恨性沟通方面表现不佳,并可能对其进行歧视,但我们对此类偏见的来源了解甚少。为了填补这一空白,我们对过去十年中引入的用于自动检测仇恨性沟通的数据集进行了系统回顾,并就数据集中所包含的个体身份质量进行了分析,这些身份是数据策划者关注的仇恨性沟通目标以及不经意间被包含在数据集中的身份。总体而言,我们发现了对选择的目标身份存在偏向的代表性和研究概念化和最终包含在数据集中的目标之间的不匹配。然而,通过将这些发现与数据集的语言和来源地背景进行联系,我们强调了这一研究领域向广泛化和多样化的积极趋势。
May, 2024