Aug, 2023
BAN-PL: Wykop.pl 网络服务禁止的有害和冒犯性内容的新波兰数据集
BAN-PL: a Novel Polish Dataset of Banned Harmful and Offensive Content from Wykop.pl web service
Inez Okulska, Kinga Głąbińska, Anna Kołos, Agnieszka Karlińska, Emilia Wiśnios...
TL;DR介绍了第一个涵盖被专业版主标记为有害并随后移除的波兰语文本的开放数据集 BAN-PL,并提供了数据收集和预处理程序的全面描述,以及数据的语言特性。BAN-PL 数据集以及用于预处理的高级脚本将公开提供。