孟加拉语虚假评论：一个基准数据集和检测系统

Aug, 2023

孟加拉语虚假评论：一个基准数据集和检测系统

Bengali Fake Reviews: A Benchmark Dataset and Detection System

G. M. Shahariar, Md. Tanvir Rouf Shawon, Faisal Muhammad Shah, Mohammad Shafiul Alam, Md. Shahriar Mahbub

TL;DR通过使用多个深度学习和预训练 Transformer 语言模型开发出一个可靠的检测系统，该论文介绍了孟加拉语虚假评论检测（BFRD）数据集，该数据集是用于识别孟加拉语虚假评论的第一个公开可用数据集，通过翻译英文单词和罗马化孟加拉语进行背音转写，提出一个独特的流程来转换评论中的非孟加拉语单词。最后，提出了一个加权集成模型，结合了四个预训练的 Transformer 模型：BanglaBERT、BanglaBERT Base、BanglaBERT Large 和 BanglaBERT Generator。经实验验证，该集成模型在 13390 条评论中（包括 1339 条实际虚假评论和使用 nlpaug 库生成的 5356 条扩增虚假评论以及从 7710 条非虚假实例中随机选取的 6695 条评论）获得了 0.9843 的加权 F1 得分，在使用 bnaug 库生成的虚假评论上获得了 0.9558 的加权 F1 得分。

Abstract

The proliferation of fake reviews on various online platforms has created a major concern for both consumers and businesses. Such reviews can deceive customers and cause damage to the reputation of products or services, making it crucial to identify them. Although the detection of fake reviews has been extensively studied in English language, detecting fake

fake review detection bengali dataset deep learning pre-trained transformer models

发现论文，激发创造

使用半监督生成对抗网络检测孟加拉虚假评论

该研究使用半监督生成式对抗网络 (GAN) 探究预训练语言模型微调在少量带有注释数据的情况下，分类孟加拉虚假评论和真实评论的潜力。实验结果表明，即使只有 1024 个标注样本，使用半监督 GAN 可在分类孟加拉虚假评论方面取得 83.59% 的准确率和 84.89% 的 f1 值，优于其他预训练语言模型大约 3%、4% 和 10% 的准确率。该研究提出的方法对于缺乏标记数据的分类问题，尤其是对于像孟加拉语这样的低资源语言，可能会有所帮助。

Apr, 2023

BanFakeNews: 用于检测孟加拉语假新闻的数据集

本文提出了一个可用于建立自动检测低资源语言（如孟加拉语）虚假新闻系统的标注数据集，同时提供了数据集分析和基准系统，采用传统语言特征和神经网络技术，为防止虚假信息传播建立技术贡献。

Apr, 2020

改善孟加拉语假新闻检测性能的方法：平衡处理和模型堆叠

本文介绍了多种解决不平衡数据集问题的方法，同时提出了一种能够在数据不平衡时提高性能的技术，并将其应用于 BangFakeNews 数据集，结果表明使用数据操纵技术，如 SMOTE，可以获得 93.1% 的 F1 分数，而使用非数据操纵方法，如 Stacked Generalization，则可以获得 79.1% 的 F1 分数。

Mar, 2022

利用双向门控循环单元和深度学习技术增强孟加拉虚假新闻检测

针对孟加拉语中的虚假新闻检测，本研究基于大规模数据集，使用了多种深度学习模型，包括双向 GRU 模型、LSTM 模型、1D 卷积神经网络模型以及混合架构模型，通过全面试验证实了这些模型在识别孟加拉语虚假新闻方面的有效性，其中双向 GRU 模型的准确率高达 99.16%。研究结果强调了数据集平衡的重要性，以及对检测过程进行不断改进的必要性，为使用有限资源创建孟加拉语虚假新闻检测系统并为未来的改进工作奠定了基础。

Mar, 2024

使用监督机器学习和 BERT 模型进行在线虚假评论检测

本研究提出使用 BERT 模型从文本（即评论）中提取词嵌入来改进现有的虚假评论分类或检测方法，结果表明 SVM 分类器在准确度和 F1 得分方面优于其他分类器，并且比之前的研究中使用的分类器高出 7.6％。

Jan, 2023

BanglaBook：基于图书评论的大规模孟加拉情感分析数据集

本研究旨在解决对于孟加拉语资源与跨领域适应性缺乏研究的限制，因此提出一个大规模的孟加拉语电子书评论数据集，使用各种机器学习模型分析数据，发现预训练模型比手工特征模型具有更高的性能，同时进行错误分析以提供关于在孟加拉语等欠资源语言中常见的分类错误的见解。

May, 2023

UrduFake@FIRE2020: 乌尔都语假新闻识别共享赛道

本文简要介绍了 2020 年 FIRE 第一次共享任务中的虚假新闻检测在乌尔都语中的应用及其表现，这是一个二元分类任务，旨在通过使用 900 个经过注释的新闻文章进行训练和 400 个新闻文章进行测试以识别虚假新闻。最好的性能系统 F 值为 0.90，表明 BERT-based 方法优于其他机器学习分类器。来自 6 个不同国家的 42 个团队注册了该任务，其中 9 个团队提交了结果。

Jul, 2022

处理孟加拉语的假新闻：揭示摘要与扩充对预训练语言模型的影响

本文介绍了用摘要和增强技术以及五个预训练语言模型的四种不同方法来分类孟加拉语中的假新闻文章的方法，并通过详尽的实验和严格的评估表明，该方法在 Bengali 假新闻检测中的有效性。

Jul, 2023

请勿散布谣言！一种多指示语言的方法用于 COVID 虚假推文检测

本文提出了一种基于 BERT 模型的方法，结合社交媒体中提取的相关特征，可以在多种印度语言，包括英语以外的语言中，尽早检测 COVID-19 的虚假消息，并提出了一种零样本学习方法用于数据稀缺问题。经过严格实验，展示了该方法在虚假消息检测上的有效性，达到 89% 的 F 值，在 Hindi 和 Bengali Tweets 中初步建立了基准，分别达到 79% 和 81% 的 F 值。

Oct, 2020

FIRE 2020 年乌尔都语虚假新闻检测共享任务概述

该论文介绍了在乌尔都语中检测假新闻的首个共享任务，通过二元分类，使用包含五个领域的新闻数据集进行实验，42 个来自 6 个国家的团队参与了这项任务，最佳性能的系统采用 BERT 机器学习方法，取得了 0.90 的 F-score。

Jul, 2022