BanFakeNews: 用于检测孟加拉语假新闻的数据集
本文介绍了多种解决不平衡数据集问题的方法,同时提出了一种能够在数据不平衡时提高性能的技术,并将其应用于 BangFakeNews 数据集,结果表明使用数据操纵技术,如 SMOTE,可以获得 93.1% 的 F1 分数,而使用非数据操纵方法,如 Stacked Generalization,则可以获得 79.1% 的 F1 分数。
Mar, 2022
本研究采用 BanMANI 数据集,旨在解决社交媒体新闻中虚假操纵相关新闻文章的具体声明在孟加拉语中尚未得到解决的问题。通过分析,我们发现这个任务无论是在零样本还是在微调设置下,都对当前 LLMs 构成了挑战。
Nov, 2023
通过使用多个深度学习和预训练 Transformer 语言模型开发出一个可靠的检测系统,该论文介绍了孟加拉语虚假评论检测(BFRD)数据集,该数据集是用于识别孟加拉语虚假评论的第一个公开可用数据集,通过翻译英文单词和罗马化孟加拉语进行背音转写,提出一个独特的流程来转换评论中的非孟加拉语单词。最后,提出了一个加权集成模型,结合了四个预训练的 Transformer 模型:BanglaBERT、BanglaBERT Base、BanglaBERT Large 和 BanglaBERT Generator。经实验验证,该集成模型在 13390 条评论中(包括 1339 条实际虚假评论和使用 nlpaug 库生成的 5356 条扩增虚假评论以及从 7710 条非虚假实例中随机选取的 6695 条评论)获得了 0.9843 的加权 F1 得分,在使用 bnaug 库生成的虚假评论上获得了 0.9558 的加权 F1 得分。
Aug, 2023
针对孟加拉语中的虚假新闻检测,本研究基于大规模数据集,使用了多种深度学习模型,包括双向 GRU 模型、LSTM 模型、1D 卷积神经网络模型以及混合架构模型,通过全面试验证实了这些模型在识别孟加拉语虚假新闻方面的有效性,其中双向 GRU 模型的准确率高达 99.16%。研究结果强调了数据集平衡的重要性,以及对检测过程进行不断改进的必要性,为使用有限资源创建孟加拉语虚假新闻检测系统并为未来的改进工作奠定了基础。
Mar, 2024
本文介绍了用摘要和增强技术以及五个预训练语言模型的四种不同方法来分类孟加拉语中的假新闻文章的方法,并通过详尽的实验和严格的评估表明,该方法在 Bengali 假新闻检测中的有效性。
Jul, 2023
本文简要介绍了 2020 年 FIRE 第一次共享任务中的虚假新闻检测在乌尔都语中的应用及其表现,这是一个二元分类任务,旨在通过使用 900 个经过注释的新闻文章进行训练和 400 个新闻文章进行测试以识别虚假新闻。最好的性能系统 F 值为 0.90,表明 BERT-based 方法优于其他机器学习分类器。来自 6 个不同国家的 42 个团队注册了该任务,其中 9 个团队提交了结果。
Jul, 2022
本文聚焦于自动识别在线新闻中的虚假内容,首先介绍了用于虚假新闻检测的新颖数据集,描述了收集、注释和验证过程,并提供诸多在区分真实和虚假新闻语言差异方面的探索性分析。其次,本文开展了一系列学习实验以构建准确的虚假新闻检测器,并比较了手动和自动识别虚假新闻的结果。
Aug, 2017
本论文提出了一种利用真实新闻和 POS 标注生成阿拉伯语虚假新闻的新方法,并开发了第一届阿拉伯语虚假新闻检测模型,该模型通过使用基于 AraNews 的生成式新闻实现了最新的 F1=70.06 的结果,所有研究中使用的数据和模型都是公开可用的。
Nov, 2020
本文针对社交媒体上孟加拉语仇恨言论检测的挑战,通过众包标注和专家验证构建了一个包含 30,000 条用户评论的数据集,并利用多个深度学习模型对其进行了实验。结果表明将 SVM 用于该数据集能够获得 87.5% 的准确率,该数据集将推动孟加拉语仇恨言论检测领域的未来研究机会。
Dec, 2020
本研究提出了一种利用高资源语言训练数据来检测低资源语言中的假新闻的方法,采用对抗学习技术来实现跨语言的检测知识转移,同时利用源信息提高文章可靠性并通过跨语言特征来提高假新闻检测系统的准确性。经实验证明,此方法可以使假新闻检测系统比使用机器翻译训练数据的系统提高 3.71% 的准确率,并将跨语言特征的应用提高了 3.03% 的准确率。
Aug, 2022