AAAIAug, 2022

现实世界中的不良内容检测的整体方法

TL;DR我们提出了一种整体方法来构建一个强大和有用的自然语言分类系统,以进行真实世界的内容审核,该系统的成功依赖于一系列精心设计和执行的步骤,包括内容分类法的设计和标注指令,数据质量控制,捕捉罕见事件的主动学习管道以及各种方法,以使模型具有稳健性并避免过度拟合。我们的审核系统经过训练,可检测许多不良内容的广泛集合,包括色情内容,仇恨内容,暴力,自残和骚扰。这种方法可以概括到各种不同的内容分类法,并可用于创建高质量的内容分类器,胜过现成的模型。