现实世界中的不良内容检测的整体方法

AAAIAug, 2022

现实世界中的不良内容检测的整体方法

A Holistic Approach to Undesired Content Detection in the Real World

Todor Markov, Chong Zhang, Sandhini Agarwal, Tyna Eloundou, Teddy Lee...

TL;DR我们提出了一种整体方法来构建一个强大和有用的自然语言分类系统，以进行真实世界的内容审核，该系统的成功依赖于一系列精心设计和执行的步骤，包括内容分类法的设计和标注指令，数据质量控制，捕捉罕见事件的主动学习管道以及各种方法，以使模型具有稳健性并避免过度拟合。我们的审核系统经过训练，可检测许多不良内容的广泛集合，包括色情内容，仇恨内容，暴力，自残和骚扰。这种方法可以概括到各种不同的内容分类法，并可用于创建高质量的内容分类器，胜过现成的模型。

Abstract

We present a holistic approach to building a robust and useful natural language classification system for real-world content moderation. The success of such a system relies on a chain of carefully designed and executed steps, including the design of content taxonomies and labeling inst

natural language classification content moderation data quality control active learning content classifiers

发现论文，激发创造

在线虐待内容检测中的道德设计

该研究在 NLP 领域探讨了如何构建一个统一的框架，用于解决识别恶意内容（包括仇恨言论，毒性评论，网络欺凌等）的问题，并强调了伦理问题的重要性。提出了一个基于 “设计伦理” 的新框架，通过两个步骤来区分个人信息相对的非个人信息、在每个类别中进行比较注释以确定滥用程度。

Oct, 2020

全球声音的和谐：文化感知模型对增强内容审查的贡献

大规模内容审核面临着在评估内容时考虑本地文化差异的挑战。该研究探讨了如何通过适应本地理解细微差别来解决这个问题，培训大型语言模型以捕捉跨地理区域的交流细节，并在关于何为冒犯内容的文化和社会变化时提供解释。研究发现，基于广泛的媒体数据集进行培训成功地培养了文化意识，并在区域基础上改善了处理内容违规行为的能力，表明灵活的内容审核方法在跟上内容不断演变的本质方面发挥了关键作用。

Dec, 2023

社交媒体内容算法化审核中被忽视的意图角色

通过考察自动检测和审查系统的最新发展以及训练数据集的成熟度，探讨了作者意图对于内容审查系统的重要性，并提出了改善自动检测和审查系统以符合道德和政策观念的策略性变革。

May, 2024

基于困惑度的跨语言异构 Web 数据成人和有害内容检测方法

本文探讨检测多语言异构 Web 数据中成人和有害内容的不同方法，利用 perplexity 方法训练文本数据分类器可以使具有相似特征的文档聚合成不同的组群，从而实现更精确的分类。

Dec, 2022

朝向连续学习的适应性问题内容检测统一框架

通过整合现有资源，利用其动态性打破研究报告断片化的问题，我们提出了一个持续学习的基准和框架，用于检测问题内容，在此基准上，优先考虑分类器对不断变化的任务的适应性而非特定任务的优秀表现，以捕捉演变中的内容并适应问题内容的新形式。

Sep, 2023

像教练，像机器人？算法内容审查中的偏见传承

通过在不同的人口子集上进行注释的文本上训练分类器来衡量算法内容调节系统的规范偏见。

Jul, 2017

跨语言情感分析技术辅助有害内容检测的综合框架

本研究介绍了一种适用于任何语言的详细框架，其中包括有关有害语言检测的各个方面，同时也提出了情感分析的整合作为改进有害语言检测的新方法。通过在低资源语言中实施该框架，展示了其高效的性能，达到了 99.4% 的恶意语言检测准确率和 66.2% 的情感分析准确率。

Mar, 2024

一种用于滥用检测的统一深度学习架构

此研究使用深度学习技术基于 Twitter 数据，对社交媒体中的仇恨言论、辱骂言论、性别歧视、种族主义与欺凌行为开展综合研究，并提出了一种基于元数据和文本的检测方法，效果优于现有的检测方法。

Feb, 2018

HateMonitors：社交媒体语言无关的滥用检测

本文介绍了我们基于梯度提升机、BERT 和 LASER 嵌入式开发的 HateMonitor 模型，在 Indo-European Languages HASOC（FIRE 2019 的任务之一）中排名第一，用于令人讨厌和令人反感的内容识别。

Sep, 2019

公共网络抓取语料库中的不良内容初步分析

本文探讨了当前神经语言模型的成功主要归功于训练语料库规模的不断增大。但是，我们扩大了对 Common Crawl 的探索，发现即使在过滤程序之后，它仍然包含大量不良内容，包括仇恨言论和性暗示内容。我们对这些内容对语言模型的潜在影响进行了讨论，最后提出了未来的研究方向和更加慎重的语料库收集和分析方法。

May, 2021