O-Dang！危险言论消息的本体论

Jul, 2022

O-Dang! The Ontology of Dangerous Speech Messages

Marco A. Stranisci, Simona Frenda, Mirko Lai, Oscar Araque, Alessandra T. Cignarella...

TL;DR本文介绍了一个名为 O-Dang! 的危险言论消息本体，它是一个系统且可互用的知识图谱，用于收集语言注释数据，并考虑了透视主义方法以编码金标准和单注释者标签。

Abstract

Inside the NLP community there is a considerable amount of language resources created, annotated and released every day with the aim of studying specific linguistic phenomena. Despite a variety of attempts in order to organize such resources has been carried on, a lack of systematic methods and of possible →

linguistic resources interoperability ontology of dangerous speech messages knowledge graph annotated data

发现论文，激发创造

KOLD：韩语攻击性语言数据集

本文介绍了韩国冒犯性语言数据集（KOLD），其中包含 40,429 个分层注释的评论，以及相应文本跨度的注释。作者使用这些注释的评论作为韩文 BERT 和 RoBERTa 模型的训练数据，并发现它们对于冒犯性检测、目标分类和目标跨度检测很有效。提供上下文信息可以显著提高模型性能，在冒犯性检测（+0.3）、目标分类（+1.5）和目标组分类（+13.1）方面有所改善。

May, 2022

希腊语中的攻击性语言识别

该研究针对互联网社区和社交媒体平台中的恶意内容问题，在英语研究有限的情况下，通过希腊注释数据集 OGTD，评估了几个计算模型，以便识别 Twitter 上的带攻击性的帖子和不带攻击性的帖子。

Mar, 2020

D3CODE: 跨文化数据中的冒犯性检测与评估中的差异分析

通过广泛的平行标注来考虑不同社会和文化群体的道德价值观，在跨文化数据集中揭示了标注者感知的区域差异，为构建包容性、具有文化敏感性的自然语言处理模型提供了关键见解。

Apr, 2024

网络有害言论的多维度识别视角：不只是仇恨

本文介绍了一种使用多个标签注释恶意在线言论的方法，强调了注释应该是细致、准确的。作者发布了一个高质量的数据集，使用六个标签注释了超过 40,000 条有关移民的推文，在此数据集上训练模型的表现优于基准数据集。

Oct, 2022

低资源语言的多语种攻击性语言识别

通过跨语境词嵌入和迁移学习，将预测扩展到低资源语言中，为即将面临的恶意内容提供了解决方案。

May, 2021

朝向本体论支持的跨语言知识图谱

通过对抽象对象的具体化和对概念与类型之间的本体论区分的认识，我们得到了一个本体论基础和语言无关的表示法，可以缓解知识图谱集成中的困难。

Jul, 2023

OPSD：一种冒犯性波斯社交媒体数据集及其基准评估

该研究介绍了两个针对恶意评论和冒犯性言论的数据集，并使用先进的语言模型和机器学习算法进行了实验，以建立该数据集的基准，结果表明 XLM-RoBERTa 在该数据集上的 F1 分数分别为 76.9% 和 89.9%。

Apr, 2024

SOLD：僧伽罗语攻击性语言数据集

本研究针对斯里兰卡使用人数超过 1700 万的 Sinhala 语，开发了一个手工注释的数据集 SOLD，和一个更大的半监督数据集 SemiSOLD，用以改进机器学习模型鉴别 Sinhala 语的具有攻击性的语言的能力。

Dec, 2022

定义术语：定义增强高效的侮辱性言论分类

通过社交媒体渠道传播冒犯内容已引起研究界的关注。本研究探索了元学习方法，利用冒犯言论语料库的多样性来提高其可靠和高效的检测。我们提出了一种联合嵌入架构，通过原型网络结合输入的标签和定义进行分类。我们的模型在 4 个数据集上，在使用不到 10％的可用训练数据的情况下，达到了至少 75％的最大 F1 分数。我们的实验结果还提供了一个针对资源稀缺问题有价值的训练策略案例研究。

Feb, 2024

基于形式本体论的词元分类及其应用

本文介绍了为印度语言量身定制的动词中心词汇资源 OntoSenseNet 的丰富，其重要贡献之一是通过开发一个计算版本来保留 Telugu 词典的原汁原味。手动注释的黄金标准语料库共包含 8483 个动词、253 个副词和 1673 个形容词，并由本地语言人士根据定义的注释指南进行注释。本文提供了注释过程的概述，并通过互注器协议的验证，验证了所开发资源的有效性。

Jul, 2018