Dec, 2022

基于困惑度的跨语言异构 Web 数据成人和有害内容检测方法

TL;DR本文探讨检测多语言异构 Web 数据中成人和有害内容的不同方法,利用 perplexity 方法训练文本数据分类器可以使具有相似特征的文档聚合成不同的组群,从而实现更精确的分类。