Aug, 2023

孟加拉语虚假评论:一个基准数据集和检测系统

TL;DR通过使用多个深度学习和预训练 Transformer 语言模型开发出一个可靠的检测系统,该论文介绍了孟加拉语虚假评论检测(BFRD)数据集,该数据集是用于识别孟加拉语虚假评论的第一个公开可用数据集,通过翻译英文单词和罗马化孟加拉语进行背音转写,提出一个独特的流程来转换评论中的非孟加拉语单词。最后,提出了一个加权集成模型,结合了四个预训练的 Transformer 模型:BanglaBERT、BanglaBERT Base、BanglaBERT Large 和 BanglaBERT Generator。经实验验证,该集成模型在 13390 条评论中(包括 1339 条实际虚假评论和使用 nlpaug 库生成的 5356 条扩增虚假评论以及从 7710 条非虚假实例中随机选取的 6695 条评论)获得了 0.9843 的加权 F1 得分,在使用 bnaug 库生成的虚假评论上获得了 0.9558 的加权 F1 得分。