在线平台上的辱骂语言检测：关键分析

Feb, 2021

在线平台上的辱骂语言检测：关键分析

Detecting Abusive Language on Online Platforms: A Critical Analysis

Preslav Nakov, Vibha Nayak, Kyle Dent, Ameya Bhatawdekar, Sheikh Muhammad Sarwar...

TL;DR调查了当前针对滥用语言的自动检测方法以及在线平台的内容管理政策，研究方向及未来工作发展方向。

Abstract

abusive language on online platforms is a major societal problem, often leading to important societal problems such as the marginalisation of underrepresented minorities. There are many different forms of

abusive language online platforms natural language processing hate speech content moderation policies

发现论文，激发创造

面对在线滥用语言：从道德和人权角度的调查

本文主要基于八项伦理原则，即：隐私、问责、安全、可透明、公平和非歧视、技术的人类控制、专业责任、人权的促进，回顾了基于自然语言处理（NLP）的网络滥用内容检测的研究，并提出了权利尊重的社会技术解决方案来检测和对抗线上滥用。

Dec, 2020

应对在线辱骂：自动辱骂检测方法综述

本文综述了当前基于自然语言处理（NLP）的滥用检测方法，包括数据集、计算方法、优缺点、挑战和解决方案，并提出伦理和可解释性指南。

Aug, 2019

情感和辱骂语言检测的联合模型

本文探讨了自然语言处理在网络通信中检测恶意行为的方法，并提出了一种以情感状态为特征的多任务学习模型，证明在检测恶意行为方面效果显著。

May, 2020

网络仇恨：解决在线社交空间中的仇恨言论问题

该研究论文探讨在线社交平台上仇恨性言论的检测方法，指出基于关键词方法检测的不足，并提出利用自我定义仇恨社区产生的内容作为训练数据的方法，实现了良好的检测性能。

Sep, 2017

社交媒体上的误导性关键字和隐含滥用语：显而易见的背后

该研究分析了数据集构建到模型行为的关键词对在自动检测滥用语言方面的影响，着重于模型在缺少强烈指示性关键词的情况下漏报滥用和在存在这些关键词的情况下误报非滥用的问题，并提供解决这三个问题的未来研究建议。

May, 2022

改进基于数据引导的印度语恶意语言检测方法，提高低资源环境下的检测效果

本篇论文探讨针对印度尼西亚语多语种辱骂性言论的大规模分析，研究不同的语言转移机制及该领域的多语种模型的表现，同时探究此类模型对抗性攻击的能力，并进行了误判分析。

Apr, 2022

审视滥用语言检测中的时间偏见

在线辱骂言语的使用已成为一个日益普遍的问题，对个人和社会造成损害，其影响从心理伤害一直升级到现实暴力甚至死亡。该研究旨在调查在不同语言中的辱骂言语检测中时间偏差的性质和影响，并探索缓解方法。我们评估了不同时间段辱骂数据集上的模型性能。我们的结果表明，时间偏差对辱骂言语检测是一个重大挑战，历史数据训练的模型表现随时间显著下降。我们还从历时的角度对这些辱骂数据集进行了广泛的语言学分析，旨在探索语言演变和性能下降的原因。该研究揭示了辱骂言语检测中时间偏差的普遍问题，为了解语言演变和缓解时间偏差提供了关键的见解。

Sep, 2023

理解虐待：虐待语言检测子任务的分类

本文讨论了关于虐待性语言检测和分析的不同子任务之间的关系，并提出了一个能够捕捉它们之间相似性和差异性的类型学，强调了研究者可以采取的最佳方法来处理他们感兴趣的虐待性语言检测子任务。

May, 2017

虐待性语言训练数据的方向：垃圾进，垃圾出

本研究从数据驱动分析、骚扰性在线内容、数据集创建、建议和基于证据的综合等方面，系统性地评估了一种在线暴力语言数据集。通过这种基于知识的综合，我们向从事这种复杂多样数据处理的从业者提供了推荐建议。

Apr, 2020

Twitter 辱骂行为的大规模众包和特征化

该研究对 Twitter 上多种形式的虐待行为进行了 8 个月的综合研究，提出了基于众包的增量迭代方法来注释大规模推文集合，最终确定了一组稳健的标签，从而在其收集和注释的 10 万条推文上展示了相关数据的发现和总结。

Feb, 2018