使用监督式机器学习和特征组合检测乌尔都语中的滥用和威胁性语言

Apr, 2022

使用监督式机器学习和特征组合检测乌尔都语中的滥用和威胁性语言

Abusive and Threatening Language Detection in Urdu using Supervised Machine Learning and Feature Combinations

Muhammad Humayoun

TL;DR本文介绍了参加 FIRE Shared Task 2021 的系统描述，该任务旨在自动识别乌尔都语中的滥用和威胁推文，结果显示支持向量机在去除停用词、应用词形还原、使用单词 n-grams (n = 1,2,3) 组合创建的特征矢量的条件下在滥用语言检测的任务上表现最佳，而在威胁语言检测的任务上，使用去除停用词、不应用词形还原、使用预训练的乌尔都语 Word2Vec 创建的特征向量，并使用过 - 采样技术使数据集平衡的支持向量机获得了最佳表现，本文的代码也可用于再现。

Abstract

This paper presents the system descriptions submitted at the FIRE Shared Task 2021 on urdu's Abusive and threatening language detection Task. This challenge aims at automatically identifying abusive and threateni

urdu abusive language detection threatening language detection support vector machines word2vec

发现论文，激发创造

FIRE 2021: 乌尔都语中滥用和威胁语言检测概述

本篇研究针对社交媒体平台上的辱骂和威胁性言论检测问题，提出了两个任务，并通过 Urdu 语言的二分类数据集进行实验，结果表明基于 m-Bert 的 Transformer 模型的性能最优。

Jul, 2022

使用监督式机器学习与特征组合的 2021 年乌尔都语假新闻检测任务

本文介绍了参加 FIRE 2021 共享任务的系统描述：“乌尔都语中的虚假新闻检测”。研究目的在于自动识别乌尔都语中写的虚假新闻。我们的结果在比赛中排名第五，但是在比赛结果公布后，我们的结果得到了进一步改善。我们的其中一个模型在支持向量机（使用多项式核函数，数字为 1）上的最佳 F1 宏平均分数为 0.6674，比比赛中排名第二的分数更高。结果是通过去除停用词、应用词形还原并从总共 1,557,000 个生成的单词 n-gram n=1,2,3,4 和字符 n-gram n=2,3,4,5,6 中选择 20k 个最佳特征而实现的。代码已提供用于再现。

Apr, 2022

利用 BERT 和 SVM 识别冒犯性推文的 SemEval-2019 任务 6 中的 UM-IU@LING

介绍了 UM-IU@LING 在 SemEval 2019 Task 6 中采用混合方法识别和分类社交媒体中的仇恨言论的系统，在子任务 A 中，使用经过微调的基于 BERT 的分类器在推文中检测恶意内容，在测试集上获得了 0.8136 的宏 F1 分数，位于 103 个提交中的第三名，在任务 B 和 C 中，使用选定字符 n-gram 特征的线性支持向量机，在子任务 C 中，系统可以识别出滥用的目标，最终在 65 个提交中排名第 27 位。

Apr, 2019

基于特征提取的仇恨言论识别模型

本文介绍了 TU Berlin 小组在 2021 年印欧语言仇恨言论与攻击性内容检测共享任务的 1A 和 1B 子任务中采用的不同自然语言处理模型，包括基于循环神经网络的单词和字符级别模型以及基于 Bert 的转移学习方法，并评估了不同模型在比赛中的表现。结果表明，基于转移学习的模型在两个子任务中均取得了最佳结果。

Jan, 2022

FIRE 2021 年乌尔都语假新闻检测共享任务概述

该研究报告介绍了 UrduFake@FIRE2021 的第二个共享任务，它是针对乌尔都语中的假新闻检测的二元分类问题。在该任务中，参与者使用了各种数据表示和机器学习算法，大部分参与者都使用了 BERT 和 RoBERTa 等转换器。其中最佳表现系统获得了 0.679 的 F1 宏分数，低于去年的最佳结果 0.907 F1-macro。

Jul, 2022

利用机器学习技术促进不发达语言的发展：乌尔都语文本检测进展

本文开发了一个带有乌尔都文本的情景图像数据集，并提出使用机器学习方法从这些图像中检测乌尔都文本的方法，包括通过 MSER 方法提取文本区域、利用 SVM 分类器筛选非文本区域、HoG 特征训练第二个 SVM 分类器来进一步提高文本区域检测的性能。最终目的是为乌尔都文本检测研究提供数据资源，并突出该领域的挑战和研究空白。

Sep, 2022

UrduFake@FIRE2020: 乌尔都语假新闻识别共享赛道

本文简要介绍了 2020 年 FIRE 第一次共享任务中的虚假新闻检测在乌尔都语中的应用及其表现，这是一个二元分类任务，旨在通过使用 900 个经过注释的新闻文章进行训练和 400 个新闻文章进行测试以识别虚假新闻。最好的性能系统 F 值为 0.90，表明 BERT-based 方法优于其他机器学习分类器。来自 6 个不同国家的 42 个团队注册了该任务，其中 9 个团队提交了结果。

Jul, 2022

推特上滥用语言的比较研究

本文研究了在 Twitter 上关于仇恨言论和辱骂的数据集，考察了不同的学习模型和额外特征的加入，并得出了使用双向 GRU 网络结合潜在主题聚类模型的最优模型，F1 得分为 0.805。

Aug, 2018

Mavericks 在 BLP-2023 任务 1 中：使用语言模型的基于合集的方法进行暴力煽动文本检测

本文介绍了我们在第一届孟加拉语语言处理研讨会的暴力煽动文本检测共享任务中的工作。针对社交媒体上的仇恨和暴力煽动性言论的传播加速，开发高效的机制来检测和遏制此类文本的传播至关重要。在资源匮乏的环境中，检测暴力煽动文本的问题更加严重，因为研究稀少且数据较少。共享任务提供的数据是孟加拉语文本，每个示例根据暴力煽动文本的类型被分类为三个类别之一。我们尝试评估了几个基于 BERT 的模型，然后使用模型集成作为我们的最终提交。我们的提交在最终排行榜上排名第 10，宏观 F1 得分为 0.737。

Nov, 2023

FIRE 2020 年乌尔都语虚假新闻检测共享任务概述

该论文介绍了在乌尔都语中检测假新闻的首个共享任务，通过二元分类，使用包含五个领域的新闻数据集进行实验，42 个来自 6 个国家的团队参与了这项任务，最佳性能的系统采用 BERT 机器学习方法，取得了 0.90 的 F-score。

Jul, 2022