BanMANI:用于识别孟加拉社交媒体新闻操纵的数据集
本文提出了一个可用于建立自动检测低资源语言(如孟加拉语)虚假新闻系统的标注数据集,同时提供了数据集分析和基准系统,采用传统语言特征和神经网络技术,为防止虚假信息传播建立技术贡献。
Apr, 2020
该论文提出了一个在社交媒体上识别新闻信息操纵的新任务,介绍了他们的数据收集方案和数据集 “ManiTweet”,并发现这是一项具有挑战性的任务,基于大型语言模型的表现仍然不尽完美。他们提出的简单且有效的基本模型在 ManiTweet 数据集上表现优异。此外,在一些人类编写的推文的探索性分析中揭示了有关信息操纵与新闻文章领域和事实性之间的有趣联系,并发现操纵的句子更有可能包含主要故事或后果。
May, 2023
本文介绍了多种解决不平衡数据集问题的方法,同时提出了一种能够在数据不平衡时提高性能的技术,并将其应用于 BangFakeNews 数据集,结果表明使用数据操纵技术,如 SMOTE,可以获得 93.1% 的 F1 分数,而使用非数据操纵方法,如 Stacked Generalization,则可以获得 79.1% 的 F1 分数。
Mar, 2022
通过使用多个深度学习和预训练 Transformer 语言模型开发出一个可靠的检测系统,该论文介绍了孟加拉语虚假评论检测(BFRD)数据集,该数据集是用于识别孟加拉语虚假评论的第一个公开可用数据集,通过翻译英文单词和罗马化孟加拉语进行背音转写,提出一个独特的流程来转换评论中的非孟加拉语单词。最后,提出了一个加权集成模型,结合了四个预训练的 Transformer 模型:BanglaBERT、BanglaBERT Base、BanglaBERT Large 和 BanglaBERT Generator。经实验验证,该集成模型在 13390 条评论中(包括 1339 条实际虚假评论和使用 nlpaug 库生成的 5356 条扩增虚假评论以及从 7710 条非虚假实例中随机选取的 6695 条评论)获得了 0.9843 的加权 F1 得分,在使用 bnaug 库生成的虚假评论上获得了 0.9558 的加权 F1 得分。
Aug, 2023
本文介绍了用摘要和增强技术以及五个预训练语言模型的四种不同方法来分类孟加拉语中的假新闻文章的方法,并通过详尽的实验和严格的评估表明,该方法在 Bengali 假新闻检测中的有效性。
Jul, 2023
心理操纵是人际对话中一种具有挑战性的滥用形式,检测操纵性语言对保护潜在受害者至关重要;然而,自然语言处理领域目前在这一主题上面临资源和研究的匮乏。本研究通过引入名为 MentalManip 的新数据集,包含 4,000 个已标注的电影对话,填补了这一空白。该数据集可以对心理操纵进行全面分析,确定操纵所使用的技巧以及针对受害者的弱点。我们的研究进一步通过一系列实验,探索先进模型在识别操纵性对话及其组成部分方面的效果。结果表明,这些模型不能充分识别和分类操纵性内容。尝试通过对心理健康和有害性现有数据集进行微调以提高性能并未克服这些限制。我们预计 MentalManip 将推动进一步的研究,促进对对话中心理操纵的理解和减轻其影响的进展。
May, 2024
该研究使用半监督生成式对抗网络 (GAN) 探究预训练语言模型微调在少量带有注释数据的情况下,分类孟加拉虚假评论和真实评论的潜力。实验结果表明,即使只有 1024 个标注样本,使用半监督 GAN 可在分类孟加拉虚假评论方面取得 83.59% 的准确率和 84.89% 的 f1 值,优于其他预训练语言模型大约 3%、4% 和 10% 的准确率。该研究提出的方法对于缺乏标记数据的分类问题,尤其是对于像孟加拉语这样的低资源语言,可能会有所帮助。
Apr, 2023
通过构建达到 15,056 个标记的新闻文章和 65,406 个未标记的新闻文章的第一个孟加拉 clickbait 检测数据集,应用 SS GANs 对 Semi Supervised Generative Adversarial Networks 进行微调,我们提出的新模型作为该数据集的一个良好基准,优于传统神经网络模型(LSTM、GRU、CNN)和基于语言特征的模型,这一研究将为未来检测孟加拉文 clickbait 标题提供一个基础。
Nov, 2023
本文提出了一种基于 BERT 模型的方法,结合社交媒体中提取的相关特征,可以在多种印度语言,包括英语以外的语言中,尽早检测 COVID-19 的虚假消息,并提出了一种零样本学习方法用于数据稀缺问题。经过严格实验,展示了该方法在虚假消息检测上的有效性,达到 89% 的 F 值,在 Hindi 和 Bengali Tweets 中初步建立了基准,分别达到 79% 和 81% 的 F 值。
Oct, 2020
通过构建一个数据收集和链接系统(MuMiN-trawl),我们开发了一个公共的虚假信息图数据集(MuMiN),它包含 21 百万条推文,13 千个经过事实检查的声明和 41 种不同语言,为自动虚假信息检测研究提供了大规模、多样化和高质量的数据集。我们公开了基线结果来证明这些是具有挑战性的任务。
Feb, 2022