O-Dang!危险言论消息的本体论
本文介绍了韩国冒犯性语言数据集(KOLD),其中包含 40,429 个分层注释的评论,以及相应文本跨度的注释。作者使用这些注释的评论作为韩文 BERT 和 RoBERTa 模型的训练数据,并发现它们对于冒犯性检测、目标分类和目标跨度检测很有效。提供上下文信息可以显著提高模型性能,在冒犯性检测(+0.3)、目标分类(+1.5)和目标组分类(+13.1)方面有所改善。
May, 2022
该研究针对互联网社区和社交媒体平台中的恶意内容问题,在英语研究有限的情况下,通过希腊注释数据集 OGTD,评估了几个计算模型,以便识别 Twitter 上的带攻击性的帖子和不带攻击性的帖子。
Mar, 2020
通过广泛的平行标注来考虑不同社会和文化群体的道德价值观,在跨文化数据集中揭示了标注者感知的区域差异,为构建包容性、具有文化敏感性的自然语言处理模型提供了关键见解。
Apr, 2024
本文介绍了一种使用多个标签注释恶意在线言论的方法,强调了注释应该是细致、准确的。作者发布了一个高质量的数据集,使用六个标签注释了超过 40,000 条有关移民的推文,在此数据集上训练模型的表现优于基准数据集。
Oct, 2022
该研究介绍了两个针对恶意评论和冒犯性言论的数据集,并使用先进的语言模型和机器学习算法进行了实验,以建立该数据集的基准,结果表明 XLM-RoBERTa 在该数据集上的 F1 分数分别为 76.9% 和 89.9%。
Apr, 2024
本研究针对斯里兰卡使用人数超过 1700 万的 Sinhala 语,开发了一个手工注释的数据集 SOLD,和一个更大的半监督数据集 SemiSOLD,用以改进机器学习模型鉴别 Sinhala 语的具有攻击性的语言的能力。
Dec, 2022
通过社交媒体渠道传播冒犯内容已引起研究界的关注。本研究探索了元学习方法,利用冒犯言论语料库的多样性来提高其可靠和高效的检测。我们提出了一种联合嵌入架构,通过原型网络结合输入的标签和定义进行分类。我们的模型在 4 个数据集上,在使用不到 10%的可用训练数据的情况下,达到了至少 75%的最大 F1 分数。我们的实验结果还提供了一个针对资源稀缺问题有价值的训练策略案例研究。
Feb, 2024
本文介绍了为印度语言量身定制的动词中心词汇资源 OntoSenseNet 的丰富,其重要贡献之一是通过开发一个计算版本来保留 Telugu 词典的原汁原味。手动注释的黄金标准语料库共包含 8483 个动词、253 个副词和 1673 个形容词,并由本地语言人士根据定义的注释指南进行注释。本文提供了注释过程的概述,并通过互注器协议的验证,验证了所开发资源的有效性。
Jul, 2018