社交媒体上的误导性关键字和隐含滥用语:显而易见的背后
本文研究了在 Twitter 上关于仇恨言论和辱骂的数据集,考察了不同的学习模型和额外特征的加入,并得出了使用双向 GRU 网络结合潜在主题聚类模型的最优模型,F1 得分为 0.805。
Aug, 2018
本文通过设计一种新的方法来检测和衡量基于文本的模型所涉及的潜在危害的严重性,并将该方法应用于 Twitter 的英语边缘滥用模型,以检测和测量与过度惩罚边缘社区言论相关的问题,并通过增加附加真负面示例来减轻相关危害。
Oct, 2022
在线辱骂言语的使用已成为一个日益普遍的问题,对个人和社会造成损害,其影响从心理伤害一直升级到现实暴力甚至死亡。该研究旨在调查在不同语言中的辱骂言语检测中时间偏差的性质和影响,并探索缓解方法。我们评估了不同时间段辱骂数据集上的模型性能。我们的结果表明,时间偏差对辱骂言语检测是一个重大挑战,历史数据训练的模型表现随时间显著下降。我们还从历时的角度对这些辱骂数据集进行了广泛的语言学分析,旨在探索语言演变和性能下降的原因。该研究揭示了辱骂言语检测中时间偏差的普遍问题,为了解语言演变和缓解时间偏差提供了关键的见解。
Sep, 2023
本文研究了五个 Twitter 数据集上使用的基于分类器的识别恶意语言的技术中的种族歧视问题,并在使用这些技术时可能产生的不平等负面影响上发出了警告。
May, 2019
本文研究滥用语言检测模型的偏见问题,通过使用不同的滥用语言数据集和预训练词嵌入和模型架构,分析性别偏见并尝试了三种减轻 偏见的方法:去偏向词嵌入、性别交换数据扩充以及使用更大的语料库进行微调。这些方法有效的降低了性别偏见 90-98%,并且可以扩展到解决其他情况下的偏见问题。
Aug, 2018
本文主要基于八项伦理原则,即:隐私、问责、安全、可透明、公平和非歧视、技术的人类控制、专业责任、人权的促进,回顾了基于自然语言处理(NLP)的网络滥用内容检测的研究,并提出了权利尊重的社会技术解决方案来检测和对抗线上滥用。
Dec, 2020
本研究从数据驱动分析、骚扰性在线内容、数据集创建、建议和基于证据的综合等方面,系统性地评估了一种在线暴力语言数据集。通过这种基于知识的综合,我们向从事这种复杂多样数据处理的从业者提供了推荐建议。
Apr, 2020
本篇论文探讨针对印度尼西亚语多语种辱骂性言论的大规模分析,研究不同的语言转移机制及该领域的多语种模型的表现,同时探究此类模型对抗性攻击的能力,并进行了误判分析。
Apr, 2022
研究讨论了社交媒体平台上存在的有害评论问题,提出使用 Lstm-cnn 模型构建分类器,以高精度区分有毒和无毒评论,并帮助组织更好地检查评论区的有害性。
Apr, 2023