Nov, 2023

THOS:一个面向有针对性的仇恨和攻击性言论的基准数据集

TL;DR社交媒体上检测有害内容的困难在于看似简单的是 / 否分类隐藏了大量的复杂性。本文介绍了 THOS 数据集,该数据集包含了 8.3k 个带有目标细粒度标注的推文,展示了使用大型语言模型训练分类器在该层级进行分类的可行性。