Dec, 2022

SOLD:僧伽罗语攻击性语言数据集

TL;DR本研究针对斯里兰卡使用人数超过 1700 万的 Sinhala 语,开发了一个手工注释的数据集 SOLD,和一个更大的半监督数据集 SemiSOLD,用以改进机器学习模型鉴别 Sinhala 语的具有攻击性的语言的能力。