ConvAbuse: 会话式人工智能中微妙辱骂检测的数据、分析和基准

EMNLPSep, 2021

ConvAbuse: 会话式人工智能中微妙辱骂检测的数据、分析和基准

ConvAbuse: Data, Analysis, and Benchmarks for Nuanced Abuse Detection in Conversational AI

Amanda Cercas Curry, Gavin Abercrombie, Verena Rieser

TL;DR本研究首次对三种对话人工智能系统 (包括一个开放域社交机器人、一个基于规则的聊天机器人和一个任务型系统) 搜集到的辱骂语言进行了英语语料库研究，发现这些系统面临着更多性侵犯色彩的攻击，并进一步测试了现有模型表现，发现 F1 得分不到 90%。

Abstract

We present the first English corpus study on abusive language towards three conversational ai systems gathered "in the wild": an open-domain soci

abusive language conversational ai social bot chatbot virtual persona

发现论文，激发创造

推特上滥用语言的比较研究

本文研究了在 Twitter 上关于仇恨言论和辱骂的数据集，考察了不同的学习模型和额外特征的加入，并得出了使用双向 GRU 网络结合潜在主题聚类模型的最优模型，F1 得分为 0.805。

Aug, 2018

基于神经网络字符组合的滥用检测模型

本研究设计了一个可以为未知单词组合嵌入的模型，与现有的自然语言处理技术相比，本方法可以更好地检测社交媒体上的滥用言论，数据集包含 Twitter 和 Wikipedia talk page。

Sep, 2018

滥用言论具有语境性，那么 NLP（自然语言处理）呢？语境在滥用言论注释和检测中的作用

本研究通过给出上下文，重新注释部分英文侮辱语言检测数据集，比较了基于上下文和不基于上下文两种数据集上三种分类算法的性能，发现基于上下文的分类更具挑战性，但也更类似于实际应用场景。

Mar, 2021

一种用于滥用检测的统一深度学习架构

此研究使用深度学习技术基于 Twitter 数据，对社交媒体中的仇恨言论、辱骂言论、性别歧视、种族主义与欺凌行为开展综合研究，并提出了一种基于元数据和文本的检测方法，效果优于现有的检测方法。

Feb, 2018

面对在线滥用语言：从道德和人权角度的调查

本文主要基于八项伦理原则，即：隐私、问责、安全、可透明、公平和非歧视、技术的人类控制、专业责任、人权的促进，回顾了基于自然语言处理（NLP）的网络滥用内容检测的研究，并提出了权利尊重的社会技术解决方案来检测和对抗线上滥用。

Dec, 2020

利用现有数据解决少样本辱骂内容检测问题

本文提出了一种两步法的方法，使用现有的包含多种任务相关的虐待性语言检测数据集进行多任务学习，再进行少量的适应性训练以针对新的标签集或语言。实验结果表明这种方法可以提高模型的性能，并且可以在不同语言中实现跨语言识别。

May, 2023

社交媒体上的误导性关键字和隐含滥用语：显而易见的背后

该研究分析了数据集构建到模型行为的关键词对在自动检测滥用语言方面的影响，着重于模型在缺少强烈指示性关键词的情况下漏报滥用和在存在这些关键词的情况下误报非滥用的问题，并提供解决这三个问题的未来研究建议。

May, 2022

情感和辱骂语言检测的联合模型

本文探讨了自然语言处理在网络通信中检测恶意行为的方法，并提出了一种以情感状态为特征的多任务学习模型，证明在检测恶意行为方面效果显著。

May, 2020

基于图卷积神经网络的辱骂语言检测

网络滥用是当前重大的社会问题。本文提出了一种新的基于图卷积网络和用户语言行为的自动化滥用语言检测方法，较之现有技术在对在线社群的结构和语言特征建模方面获得了显著提升。

Apr, 2019

审视滥用语言检测中的时间偏见

在线辱骂言语的使用已成为一个日益普遍的问题，对个人和社会造成损害，其影响从心理伤害一直升级到现实暴力甚至死亡。该研究旨在调查在不同语言中的辱骂言语检测中时间偏差的性质和影响，并探索缓解方法。我们评估了不同时间段辱骂数据集上的模型性能。我们的结果表明，时间偏差对辱骂言语检测是一个重大挑战，历史数据训练的模型表现随时间显著下降。我们还从历时的角度对这些辱骂数据集进行了广泛的语言学分析，旨在探索语言演变和性能下降的原因。该研究揭示了辱骂言语检测中时间偏差的普遍问题，为了解语言演变和缓解时间偏差提供了关键的见解。

Sep, 2023