Oct, 2023

用于分类现实世界在线服务中的有偏见言论的大规模韩文文本数据集

TL;DR我们引入了一个来自韩国著名 SNS 平台的全面、大规模数据集,该数据集提供了对文本样本的三种注释:(1)偏好,(2)亵渎,和(3)九种偏见类型,实现了用户生成文本的多任务学习的同时分类。通过利用最先进的基于 BERT 的语言模型,我们的方法在各种度量标准下超越了人类水平的准确性。除了学术贡献,我们的工作可以为实际的仇恨言论和偏见减轻提供实际解决方案,直接有助于提升在线社区的健康。我们的工作为未来旨在提高在线话语质量和促进社会福祉的研究奠定了坚实的基础。所有源代码和数据集都可以在此 https 链接上公开访问。