Nov, 2023

当涉及言语问题时:重新审视标记敏感内容的方法

TL;DR许多资源匮乏的语言需要具有高质量的特定任务数据集,例如辱骂语言检测、虚假消息或错误信息识别。本文从乌克兰推文的伪标记敏感数据的方法出发,重新审视了使用该方法的过程,重点关注俄乌战争相关主题。通过实验,突出了数据标注的三个主要阶段,并强调了机器标注过程中的主要障碍。最终,我们对获得的数据进行了基础统计分析,并对用于伪标记的模型进行了评估,提供了进一步指导,以便科学家能在不涉及标注人员的情况下利用语料库进行更高级的研究和扩展现有数据样本。