在线平台上的辱骂语言检测:关键分析
本文主要基于八项伦理原则,即:隐私、问责、安全、可透明、公平和非歧视、技术的人类控制、专业责任、人权的促进,回顾了基于自然语言处理(NLP)的网络滥用内容检测的研究,并提出了权利尊重的社会技术解决方案来检测和对抗线上滥用。
Dec, 2020
该研究论文探讨在线社交平台上仇恨性言论的检测方法,指出基于关键词方法检测的不足,并提出利用自我定义仇恨社区产生的内容作为训练数据的方法,实现了良好的检测性能。
Sep, 2017
该研究分析了数据集构建到模型行为的关键词对在自动检测滥用语言方面的影响,着重于模型在缺少强烈指示性关键词的情况下漏报滥用和在存在这些关键词的情况下误报非滥用的问题,并提供解决这三个问题的未来研究建议。
May, 2022
本篇论文探讨针对印度尼西亚语多语种辱骂性言论的大规模分析,研究不同的语言转移机制及该领域的多语种模型的表现,同时探究此类模型对抗性攻击的能力,并进行了误判分析。
Apr, 2022
在线辱骂言语的使用已成为一个日益普遍的问题,对个人和社会造成损害,其影响从心理伤害一直升级到现实暴力甚至死亡。该研究旨在调查在不同语言中的辱骂言语检测中时间偏差的性质和影响,并探索缓解方法。我们评估了不同时间段辱骂数据集上的模型性能。我们的结果表明,时间偏差对辱骂言语检测是一个重大挑战,历史数据训练的模型表现随时间显著下降。我们还从历时的角度对这些辱骂数据集进行了广泛的语言学分析,旨在探索语言演变和性能下降的原因。该研究揭示了辱骂言语检测中时间偏差的普遍问题,为了解语言演变和缓解时间偏差提供了关键的见解。
Sep, 2023
本文讨论了关于虐待性语言检测和分析的不同子任务之间的关系,并提出了一个能够捕捉它们之间相似性和差异性的类型学,强调了研究者可以采取的最佳方法来处理他们感兴趣的虐待性语言检测子任务。
May, 2017
本研究从数据驱动分析、骚扰性在线内容、数据集创建、建议和基于证据的综合等方面,系统性地评估了一种在线暴力语言数据集。通过这种基于知识的综合,我们向从事这种复杂多样数据处理的从业者提供了推荐建议。
Apr, 2020
该研究对 Twitter 上多种形式的虐待行为进行了 8 个月的综合研究,提出了基于众包的增量迭代方法来注释大规模推文集合,最终确定了一组稳健的标签,从而在其收集和注释的 10 万条推文上展示了相关数据的发现和总结。
Feb, 2018