Apr, 2022

使用监督式机器学习与特征组合的 2021 年乌尔都语假新闻检测任务

TL;DR本文介绍了参加 FIRE 2021 共享任务的系统描述:“乌尔都语中的虚假新闻检测”。研究目的在于自动识别乌尔都语中写的虚假新闻。我们的结果在比赛中排名第五,但是在比赛结果公布后,我们的结果得到了进一步改善。我们的其中一个模型在支持向量机(使用多项式核函数,数字为 1)上的最佳 F1 宏平均分数为 0.6674,比比赛中排名第二的分数更高。结果是通过去除停用词、应用词形还原并从总共 1,557,000 个生成的单词 n-gram n=1,2,3,4 和字符 n-gram n=2,3,4,5,6 中选择 20k 个最佳特征而实现的。代码已提供用于再现。