Oct, 2020

关于跨数据集通用性的在线滥用自动检测

TL;DR通过无监督主题模型和人工主题关键词检查,我们发现 Wikipedia Detox 数据集中温和的例子偏向于平台特定主题,移除这些主题可以提高跨数据集泛化能力,同时不会降低领域内分类性能,为了建立一个有效的数据集设计,我们建议在手动标注类标签之前,应用廉价的无监督方法检查收集的数据并减少不具有泛化能力的内容。