社交媒体上的误导性关键字和隐含滥用语：显而易见的背后

May, 2022

社交媒体上的误导性关键字和隐含滥用语：显而易见的背后

Hidden behind the obvious: misleading keywords and implicitly abusive language on social media

Wenjie Yin, Arkaitz Zubiaga

TL;DR该研究分析了数据集构建到模型行为的关键词对在自动检测滥用语言方面的影响，着重于模型在缺少强烈指示性关键词的情况下漏报滥用和在存在这些关键词的情况下误报非滥用的问题，并提供解决这三个问题的未来研究建议。

Abstract

While social media offers freedom of self-expression, abusive language carry significant negative social impact. Driven by the importance of the issue, research in the →

social media abusive language automated detection keywords model behavior

发现论文，激发创造

在线平台上的辱骂语言检测：关键分析

调查了当前针对滥用语言的自动检测方法以及在线平台的内容管理政策，研究方向及未来工作发展方向。

Feb, 2021

推特上滥用语言的比较研究

本文研究了在 Twitter 上关于仇恨言论和辱骂的数据集，考察了不同的学习模型和额外特征的加入，并得出了使用双向 GRU 网络结合潜在主题聚类模型的最优模型，F1 得分为 0.805。

Aug, 2018

英语边缘滥用模型在 Twitter 上对被边缘化群体过度惩罚的基于关键词的方法

本文通过设计一种新的方法来检测和衡量基于文本的模型所涉及的潜在危害的严重性，并将该方法应用于 Twitter 的英语边缘滥用模型，以检测和测量与过度惩罚边缘社区言论相关的问题，并通过增加附加真负面示例来减轻相关危害。

Oct, 2022

审视滥用语言检测中的时间偏见

在线辱骂言语的使用已成为一个日益普遍的问题，对个人和社会造成损害，其影响从心理伤害一直升级到现实暴力甚至死亡。该研究旨在调查在不同语言中的辱骂言语检测中时间偏差的性质和影响，并探索缓解方法。我们评估了不同时间段辱骂数据集上的模型性能。我们的结果表明，时间偏差对辱骂言语检测是一个重大挑战，历史数据训练的模型表现随时间显著下降。我们还从历时的角度对这些辱骂数据集进行了广泛的语言学分析，旨在探索语言演变和性能下降的原因。该研究揭示了辱骂言语检测中时间偏差的普遍问题，为了解语言演变和缓解时间偏差提供了关键的见解。

Sep, 2023

关于仇恨言论和辱骂语言检测数据集中的种族偏见问题

本文研究了五个 Twitter 数据集上使用的基于分类器的识别恶意语言的技术中的种族歧视问题，并在使用这些技术时可能产生的不平等负面影响上发出了警告。

May, 2019

减少辱骂语言检测中的性别偏见

本文研究滥用语言检测模型的偏见问题，通过使用不同的滥用语言数据集和预训练词嵌入和模型架构，分析性别偏见并尝试了三种减轻偏见的方法：去偏向词嵌入、性别交换数据扩充以及使用更大的语料库进行微调。这些方法有效的降低了性别偏见 90-98%，并且可以扩展到解决其他情况下的偏见问题。

Aug, 2018

面对在线滥用语言：从道德和人权角度的调查

本文主要基于八项伦理原则，即：隐私、问责、安全、可透明、公平和非歧视、技术的人类控制、专业责任、人权的促进，回顾了基于自然语言处理（NLP）的网络滥用内容检测的研究，并提出了权利尊重的社会技术解决方案来检测和对抗线上滥用。

Dec, 2020

虐待性语言训练数据的方向：垃圾进，垃圾出

本研究从数据驱动分析、骚扰性在线内容、数据集创建、建议和基于证据的综合等方面，系统性地评估了一种在线暴力语言数据集。通过这种基于知识的综合，我们向从事这种复杂多样数据处理的从业者提供了推荐建议。

Apr, 2020

改进基于数据引导的印度语恶意语言检测方法，提高低资源环境下的检测效果

本篇论文探讨针对印度尼西亚语多语种辱骂性言论的大规模分析，研究不同的语言转移机制及该领域的多语种模型的表现，同时探究此类模型对抗性攻击的能力，并进行了误判分析。

Apr, 2022

使用机器学习模型对社交媒体毒性评论进行分类

研究讨论了社交媒体平台上存在的有害评论问题，提出使用 Lstm-cnn 模型构建分类器，以高精度区分有毒和无毒评论，并帮助组织更好地检查评论区的有害性。

Apr, 2023