使用监督式机器学习与特征组合的 2021 年乌尔都语假新闻检测任务

Apr, 2022

使用监督式机器学习与特征组合的 2021 年乌尔都语假新闻检测任务

The 2021 Urdu Fake News Detection Task using Supervised Machine Learning and Feature Combinations

Muhammad Humayoun

TL;DR本文介绍了参加 FIRE 2021 共享任务的系统描述：“乌尔都语中的虚假新闻检测”。研究目的在于自动识别乌尔都语中写的虚假新闻。我们的结果在比赛中排名第五，但是在比赛结果公布后，我们的结果得到了进一步改善。我们的其中一个模型在支持向量机（使用多项式核函数，数字为 1）上的最佳 F1 宏平均分数为 0.6674，比比赛中排名第二的分数更高。结果是通过去除停用词、应用词形还原并从总共 1,557,000 个生成的单词 n-gram n=1,2,3,4 和字符 n-gram n=2,3,4,5,6 中选择 20k 个最佳特征而实现的。代码已提供用于再现。

Abstract

This paper presents the system description submitted at the FIRE Shared Task: "The 2021 fake news detection in the urdu language". This challenge aims at automatically identifying Fake news written in Urdu. Our s

fake news detection urdu language support vector machines n-gram lemmatization

发现论文，激发创造

FIRE 2021 年乌尔都语假新闻检测共享任务概述

该研究报告介绍了 UrduFake@FIRE2021 的第二个共享任务，它是针对乌尔都语中的假新闻检测的二元分类问题。在该任务中，参与者使用了各种数据表示和机器学习算法，大部分参与者都使用了 BERT 和 RoBERTa 等转换器。其中最佳表现系统获得了 0.679 的 F1 宏分数，低于去年的最佳结果 0.907 F1-macro。

Jul, 2022

UrduFake@FIRE2020: 乌尔都语假新闻识别共享赛道

本文简要介绍了 2020 年 FIRE 第一次共享任务中的虚假新闻检测在乌尔都语中的应用及其表现，这是一个二元分类任务，旨在通过使用 900 个经过注释的新闻文章进行训练和 400 个新闻文章进行测试以识别虚假新闻。最好的性能系统 F 值为 0.90，表明 BERT-based 方法优于其他机器学习分类器。来自 6 个不同国家的 42 个团队注册了该任务，其中 9 个团队提交了结果。

Jul, 2022

FIRE 2020 年乌尔都语虚假新闻检测共享任务概述

该论文介绍了在乌尔都语中检测假新闻的首个共享任务，通过二元分类，使用包含五个领域的新闻数据集进行实验，42 个来自 6 个国家的团队参与了这项任务，最佳性能的系统采用 BERT 机器学习方法，取得了 0.90 的 F-score。

Jul, 2022

使用监督式机器学习和特征组合检测乌尔都语中的滥用和威胁性语言

本文介绍了参加 FIRE Shared Task 2021 的系统描述，该任务旨在自动识别乌尔都语中的滥用和威胁推文，结果显示支持向量机在去除停用词、应用词形还原、使用单词 n-grams (n = 1,2,3) 组合创建的特征矢量的条件下在滥用语言检测的任务上表现最佳，而在威胁语言检测的任务上，使用去除停用词、不应用词形还原、使用预训练的乌尔都语 Word2Vec 创建的特征向量，并使用过 - 采样技术使数据集平衡的支持向量机获得了最佳表现，本文的代码也可用于再现。

Apr, 2022

UrduFake@FIRE2021：乌尔都语虚假新闻识别共享赛道

本篇研究报告了第二项 “UrduFake@FIRE2021” 任务，该任务提供了对乌尔都语中的新闻进行虚假新闻检测的二分类问题，通过使用不同的分类器和神经网络体系结构基于各种计数特征训练的方法以及采用 SGD 算法，在来自 7 个国家的 34 个团队的参与下，最终获得了 0.679 F 值的最佳结果。

Jul, 2022

Constraint 2021: COVID-19 虚假新闻检测机器学习模型共享任务

本研究为 Constraint 2021 年 COVID-19 虚假新闻检测共享任务做出了贡献，提出了将经典机器学习算法与语言学特征相结合的方法，在数据预处理方面进行了多种尝试并得到了不错的结果。通过使用线性支持向量机算法，在测试数据上获得了 95.19% 的加权平均 F1 得分，名列排行榜第 80 位。

Jan, 2021

Ax-to-Grind Urdu: 乌尔都语虚假新闻检测基准数据集

通过该研究，我们为乌尔都语伪新闻检测提供了首个规模最大的公开数据集 Ax-to-Grind Urdu，其中包含来自巴基斯坦和印度领先和真实的乌尔都语报纸和新闻频道网站的 10,083 条真假新闻。我们还使用 mBERT、XLNet 和 XLM RoBERTa 集成模型对数据集进行了基准测试，并根据 F1 分数、准确度、精确度、召回率和 MCC 值等性能指标评估了模型的结果。

Mar, 2024

使用自然语言处理技术的乌尔都语新闻文章推荐模型

提出一种可以预测用户兴趣的乌尔都语新闻推荐框架，使用了 NLP 技术的预处理和 TF-IDF 和余弦相似度计算，利用 BERT 语言模型相似性提高了系统推荐性能。当文章相似性超过 60％时，系统会向用户推荐相关新闻。

May, 2022

利用机器学习技术促进不发达语言的发展：乌尔都语文本检测进展

本文开发了一个带有乌尔都文本的情景图像数据集，并提出使用机器学习方法从这些图像中检测乌尔都文本的方法，包括通过 MSER 方法提取文本区域、利用 SVM 分类器筛选非文本区域、HoG 特征训练第二个 SVM 分类器来进一步提高文本区域检测的性能。最终目的是为乌尔都文本检测研究提供数据资源，并突出该领域的挑战和研究空白。

Sep, 2022

生成和检测阿拉伯语操纵和虚假新闻的机器

本论文提出了一种利用真实新闻和 POS 标注生成阿拉伯语虚假新闻的新方法，并开发了第一届阿拉伯语虚假新闻检测模型，该模型通过使用基于 AraNews 的生成式新闻实现了最新的 F1=70.06 的结果，所有研究中使用的数据和模型都是公开可用的。

Nov, 2020