可解释的滥用检测：意图分类和槽位填充

ACLOct, 2022

可解释的滥用检测：意图分类和槽位填充

Explainable Abuse Detection as Intent Classification and Slot Filling

Agostina Calabrese, Björn Ross, Mirella Lapata

TL;DR通过收集和标注一系列文章，我们提出了一种基于使用意图分类和卡槽填充构建体系结构的方法，以检测有害的社交媒体帖子，同时提供了模型决策的理由。

Abstract

To proactively offer social media users a safe online experience, there is a need for systems that can detect harmful posts and promptly alert platform moderators. In order to guarantee the enforcement of a consi

social media harmful posts abuse detection policy-aware intent classification

发现论文，激发创造

社交媒体内容算法化审核中被忽视的意图角色

通过考察自动检测和审查系统的最新发展以及训练数据集的成熟度，探讨了作者意图对于内容审查系统的重要性，并提出了改善自动检测和审查系统以符合道德和政策观念的策略性变革。

May, 2024

AbuseAnalyzer: 用于 Gab 帖子的滥用检测、严重程度和目标预测

该论文提出了一种基于 “Gab” 数据集的在线滥用行为检测和评估方法，该方法可以确定滥用性内容的存在性，严重性和目标，并可达到 80％的存在性检测准确率，82％的目标检测准确率以及 65％的滥用严重性预测准确率

Sep, 2020

隐私政策的意图分类和槽填充

本文提出 PolicyIE 数据集，对比两种基准神经方法处理语义意图分类和信息填充。结果表明序列到序列（Seq2Seq）模型在信息填充任务上优于序列标注方法。

Jan, 2021

利用现有数据解决少样本辱骂内容检测问题

本文提出了一种两步法的方法，使用现有的包含多种任务相关的虐待性语言检测数据集进行多任务学习，再进行少量的适应性训练以针对新的标签集或语言。实验结果表明这种方法可以提高模型的性能，并且可以在不同语言中实现跨语言识别。

May, 2023

在线虐待内容检测中的道德设计

该研究在 NLP 领域探讨了如何构建一个统一的框架，用于解决识别恶意内容（包括仇恨言论，毒性评论，网络欺凌等）的问题，并强调了伦理问题的重要性。提出了一个基于 “设计伦理” 的新框架，通过两个步骤来区分个人信息相对的非个人信息、在每个类别中进行比较注释以确定滥用程度。

Oct, 2020

一种用于滥用检测的统一深度学习架构

此研究使用深度学习技术基于 Twitter 数据，对社交媒体中的仇恨言论、辱骂言论、性别歧视、种族主义与欺凌行为开展综合研究，并提出了一种基于元数据和文本的检测方法，效果优于现有的检测方法。

Feb, 2018

应对在线辱骂：自动辱骂检测方法综述

本文综述了当前基于自然语言处理（NLP）的滥用检测方法，包括数据集、计算方法、优缺点、挑战和解决方案，并提出伦理和可解释性指南。

Aug, 2019

基于神经网络字符组合的滥用检测模型

本研究设计了一个可以为未知单词组合嵌入的模型，与现有的自然语言处理技术相比，本方法可以更好地检测社交媒体上的滥用言论，数据集包含 Twitter 和 Wikipedia talk page。

Sep, 2018

社交媒体上的误导性关键字和隐含滥用语：显而易见的背后

该研究分析了数据集构建到模型行为的关键词对在自动检测滥用语言方面的影响，着重于模型在缺少强烈指示性关键词的情况下漏报滥用和在存在这些关键词的情况下误报非滥用的问题，并提供解决这三个问题的未来研究建议。

May, 2022

可解释的槽位类型注意力机制用于提高联合意图检测和槽位填充

本研究提出了一种新颖的基于监督学习的方法，它可以学习生成针对不同槽类型的特征以提高准确性，并提供了首个能够解释基于联合 NLU 模型的槽填充决策的方法，从而保证了模型的可解释性。实验结果表明，该方法在两个广泛使用的数据集上均取得了准确性改进，并提供了有关独占式槽解释性的详细分析。

Oct, 2022