一种改进的基于 Transformer 模型的钓鱼、垃圾邮件和非垃圾邮件识别方法:大型语言模型方法
本研究论文介绍了一种优化的、经过微调的基于 Transformer 的 DistilBERT 模型,用于检测钓鱼邮件。通过实验,我们发现我们的模型能够有效地实现高准确性,并使用可解释的 AI 技术来解释我们的模型在钓鱼邮件的文本分类中进行预测的方式。
Feb, 2024
本研究分析了 15 个大型语言模型(LLMs)在检测网络钓鱼邮件方面的效果,重点关注 “419 诈骗” 邮件。实验证明 ChatGPT 3.5、GPT-3.5-Turbo-Instruct 和 ChatGPT 是最有效的钓鱼邮件检测模型。
Apr, 2024
使用大型语言模型(LLMs)创建有针对性的横向钓鱼邮件,并评估电子邮件过滤基础设施对此类 LLM 生成的钓鱼尝试的检测能力,提供了关于其有效性的洞见,并确定了潜在的改进领域。根据我们的研究结果,我们提出了基于机器学习的检测技术来检测现有基础设施未能发现的 LLM 生成的钓鱼邮件,F1 分数为 98.96。
Jan, 2024
通过对大规模语言模型在网络钓鱼领域的应用研究,发现现有的大规模语言模型对于网络罪犯在网络钓鱼攻击中的情报收集和信息生成阶段提高了效率,在此基础上,通过 600 个英国议员的案例研究发现应用于网络钓鱼的语言模型不仅效果逼真,且花费非常低;在此基础上,提出了两种解决方案,即应用程序接口等结构化访问方案和基于大规模语言模型的防御系统,强调了治理干预的必要性。
May, 2023
本研究探讨了大型语言模型(LLMs)在特定任务(如文本分类,特别是检测恶意内容)中的潜力和局限,并将其结果与最先进的 DeBERTa V3 模型进行对比。通过使用包括电子邮件、HTML、URL、短信和合成数据生成的综合公共数据集,我们系统地评估了这两种方法的潜力和局限,并展示了 LLMs 如何生成具有说服力的网络钓鱼邮件以及在此背景下两种模型的性能。我们的实验结果表明,基于变形金刚的 DeBERTa 方法是最有效的,其测试数据集(HuggingFace 网络钓鱼数据集)召回率(敏感性)达到 95.17%,紧随其后的是 GPT-4,召回率为 91.04%。通过我们的研究,我们提供了这些先进语言模型的有效性和稳定性的有价值的见解,并提供了详细的比较分析,以指导未来在加强检测和减轻网络钓鱼威胁方面的研究工作。
Jun, 2024
使用优化和微调的基于 Transformer 的大型语言模型解决短信垃圾信息检测问题,通过预处理技术、文本扩增技术解决数据噪声和类别不平衡问题,实验结果显示我们的优化微调 BERT 模型 RoBERTa 在短信垃圾信息检测任务中获得 99.84% 的高准确率,并采用可解释人工智能(XAI)技术探索和解释模型的透明性,对比了传统机器学习模型和基于 Transformer 的模型性能,描述了大型语言模型在信息安全领域中对复杂文本垃圾数据的积极影响。
May, 2024
本文旨在探究大型语言模型在垃圾邮件检测中的有效性,通过比较 BERT,Sentence Transformers 和 Seq2Seq 等不同家族的著名模型,并将 Naive Bayes 和 LightGBM 等传统方法作为基准方法。 结果表明,在大多数情况下,大型语言模型优于基线技术,特别是在少样本学习中。此外,本文介绍了 Spam-T5 模型,该模型针对电子邮件垃圾邮件检测进行了专门的微调。结果表明,Spam-T5 在大多数情况下优于基线模型和其他大型语言模型。
Apr, 2023
本文介绍了 SecurityLLM,它是一个旨在检测网络安全威胁的预训练语言模型,其中 SecurityBERT 作为网络威胁检测机制,而 FalconLLM 则是一种事件响应和恢复系统,实验结果表明,我们的 SecurityLLM 模型可以在 98% 的准确率下识别 14 种不同类型的攻击。
Jun, 2023
本研究旨在探讨自然语言模型如 GPT-3 和 GPT-2 生成有效钓鱼邮件的潜力,并提出了一个框架来评估其性能,我们的研究结果表明,自然语言模型生成的钓鱼邮件容易逃避垃圾邮件过滤器并且成功率高,在恶意目的下使用自然语言模型存在着重大安全和道德上的问题。
Dec, 2022
本文利用预训练的 Google 的 Bidirectional Encoder Representations from Transformers (BERT) 基础未大写模型,基于自我注意机制,并通过四个数据集高效分类垃圾邮件和非垃圾邮件,训练了一种通用的垃圾邮件检测模型,并取得了不错的性能。
Feb, 2022