May, 2022

KOLD:韩语攻击性语言数据集

TL;DR本文介绍了韩国冒犯性语言数据集(KOLD),其中包含 40,429 个分层注释的评论,以及相应文本跨度的注释。作者使用这些注释的评论作为韩文 BERT 和 RoBERTa 模型的训练数据,并发现它们对于冒犯性检测、目标分类和目标跨度检测很有效。提供上下文信息可以显著提高模型性能,在冒犯性检测(+0.3)、目标分类(+1.5)和目标组分类(+13.1)方面有所改善。