Dec, 2022
基于困惑度的跨语言异构 Web 数据成人和有害内容检测方法
Perplexed by Quality: A Perplexity-based Method for Adult and Harmful Content Detection in Multilingual Heterogeneous Web Data
Tim Jansen, Yangling Tong, Victoria Zevallos, Pedro Ortiz Suarez
TL;DR本文探讨检测多语言异构 Web 数据中成人和有害内容的不同方法,利用 perplexity 方法训练文本数据分类器可以使具有相似特征的文档聚合成不同的组群,从而实现更精确的分类。