SemEval-2020 任务 12:社交媒体中的多语种攻击性语言识别(OffensEval 2020)
本文介绍了 SemEval-2019 任务 6(OffensEval)的结果和主要发现,该任务基于一个包含超过 14,000 个英文推文的新数据集 ——Offensive Language Identification Dataset(OLID),它有三个子任务,目标是在社交媒体上识别和分类攻击性语言。
Mar, 2019
本文采用跨语言归纳方法基于上下文的词嵌入模型 XLM-RoBERTa 检测跨语言社交媒体中的冒犯性语言,实验结果表明我们的模型在五种语言中表现竞争力,并在零 - shot 学习环境下显示出可扩展性。
Jul, 2020
本文研究使用预训练语言模型 ERNIE 和 XLM-R 在社交媒体中检测和分类攻击性语言,提出了一种多语言方法和知识蒸馏方法,并在 SemEval-2020 任务 12 中表现出了优异的性能,成为唯一在所有语言下排名前三的团队。
Oct, 2020
本文介绍了我们在多语言环境下识别冒犯性语言的方法,使用数据增强策略,包括使用具有不同阈值的附加半监督标签和跨语言转移与数据选择,并提出了一个新的度量标准 Translation Embedding Distance,用于跨语言数据选择。我们还提出了各种预处理步骤和微调方法,定制社交媒体文本的预训练多语言 BERT(mBERT)来进行冒犯性语言识别,我们的多语言系统在 OffensEval 2020 上取得了有竞争力的结果。
Aug, 2020
本篇研究论文针对社交媒体中的攻击性内容建立一个结合多任务学习和以 BERT 为基础的模型的系统,利用预训练的 BERT 语言模型有效地学习社交媒体中包含噪音的文本的表示,同时利用其他相关任务的监督信号来提高攻击性语言检测的性能,在 OffensEval-2020 比赛中,我们的模型在英文子任务 A 中达到了 91.51%的 F1 得分,相当于第一名(92.23%F1),同时提供了经验分析来解释我们方法的有效性。
Apr, 2020
本文探讨了利用经过领域调整的上下文化语言模型(BERT)以及叠加不同组件和配置(如:多视图支持向量机)来识别带有攻击性语言的存在、带有目标的攻击性语言的存在和目标的类别,作者提出的提交方案在 OffensEval 2020 共享任务中分别取得了 91.7%、66.5% 和 63.2% 的 F1 得分。通过消融实验和误差分析,作者发现领域调整可以极大地提高分类性能,并提出未来的研究方向。
Jul, 2020
本文介绍了我们在 SemEval 2019 任务 6:识别和分类社交媒体中的冒犯性语言的子任务 A 和子任务 B 中的方法和系统描述。其中子任务 A 包括确定给定推文是否具有冒犯性,子任务 B 涉及检测是否针对某人(团体或个人)的攻击性推文。我们基于卷积神经网络,带有关注机制的双向 LSTM 和双向 LSTM + 双向 GRU 的集成模型进行子任务 A 的建模,而对于子任务 B,我们依赖于从训练数据和手动观察中得出的一组启发式规则。我们详细分析了使用训练模型获得的结果。我们的团队在子任务 A 中排名第 5,获得 0.807 的宏 F1 分数,在子任务 B 中排名第 8,获得 0.695 的宏 F1 分数。
Apr, 2019
本文介绍了 Duluth 系统参加了 SemEval-2020 任务 12:社交媒体中的多语种攻击性语言识别(OffensEval-2020),利用逻辑回归提供了一个简单的机器学习基线,并使用任务组织者提供的远程监督训练数据进行了模型训练。然而,最终在比较评估中的排名并不高,我们进行了定性分析并发现金标准数据中的类别标签有一定的噪声,这样的高排名可能反映的是训练数据上过拟合而并不能很好地预测英语中攻击性语言的特点。
Jul, 2020
本研究介绍了 Duluth 系统在 SemEval-2019 Task 6 中的表现,主要采用传统机器学习的方法,通过手动标记的训练数据中的词汇特征构建分类器来识别和分类社交媒体中的冒犯性语言,其中最成功的分类方法是基于规则的黑名单方法并尝试将两个不同但相关的 SemEval 任务的训练数据合并,最终在三个 OffensEval 任务中的最佳系统在比较评估中排名中等。
Jul, 2020