SecureNet: DeBERTa 与大型语言模型在钓鱼检测中的比较研究

Jun, 2024

SecureNet: DeBERTa 与大型语言模型在钓鱼检测中的比较研究

SecureNet: A Comparative Study of DeBERTa and Large Language Models for Phishing Detection

Sakshi Mahendru, Tejul Pandit

TL;DR本研究探讨了大型语言模型（LLMs）在特定任务（如文本分类，特别是检测恶意内容）中的潜力和局限，并将其结果与最先进的 DeBERTa V3 模型进行对比。通过使用包括电子邮件、HTML、URL、短信和合成数据生成的综合公共数据集，我们系统地评估了这两种方法的潜力和局限，并展示了 LLMs 如何生成具有说服力的网络钓鱼邮件以及在此背景下两种模型的性能。我们的实验结果表明，基于变形金刚的 DeBERTa 方法是最有效的，其测试数据集（HuggingFace 网络钓鱼数据集）召回率（敏感性）达到 95.17%，紧随其后的是 GPT-4，召回率为 91.04%。通过我们的研究，我们提供了这些先进语言模型的有效性和稳定性的有价值的见解，并提供了详细的比较分析，以指导未来在加强检测和减轻网络钓鱼威胁方面的研究工作。

Abstract

phishing, whether through email, SMS, or malicious websites, poses a major threat to organizations by using social engineering to trick users into revealing sensitive information. It not only compromises company's data security but also incurs significant financial losses. In this pape

phishing large language models (llms)deberta v3 text classification cybersecurity measures

发现论文，激发创造

大型语言模型惊人准确地识别钓鱼邮件：性能比较分析

本研究分析了 15 个大型语言模型（LLMs）在检测网络钓鱼邮件方面的效果，重点关注 “419 诈骗” 邮件。实验证明 ChatGPT 3.5、GPT-3.5-Turbo-Instruct 和 ChatGPT 是最有效的钓鱼邮件检测模型。

Apr, 2024

可解释的基于 Transformer 的网络钓鱼邮件检测模型：一种大型语言模型方法

本研究论文介绍了一种优化的、经过微调的基于 Transformer 的 DistilBERT 模型，用于检测钓鱼邮件。通过实验，我们发现我们的模型能够有效地实现高准确性，并使用可解释的 AI 技术来解释我们的模型在钓鱼邮件的文本分类中进行预测的方式。

Feb, 2024

一种改进的基于 Transformer 模型的钓鱼、垃圾邮件和非垃圾邮件识别方法：大型语言模型方法

利用基于 BERT 模型的 IPSDM 模型，本文首次尝试将大型语言模型应用于检测钓鱼邮件和垃圾邮件，取得了更好的分类效果，并为改善信息系统安全迈出重要的第一步。

Nov, 2023

利用大型语言模型有效扩展鱼叉式网络钓鱼攻击

通过对大规模语言模型在网络钓鱼领域的应用研究，发现现有的大规模语言模型对于网络罪犯在网络钓鱼攻击中的情报收集和信息生成阶段提高了效率，在此基础上，通过 600 个英国议员的案例研究发现应用于网络钓鱼的语言模型不仅效果逼真，且花费非常低；在此基础上，提出了两种解决方案，即应用程序接口等结构化访问方案和基于大规模语言模型的防御系统，强调了治理干预的必要性。

May, 2023

从聊天机器人到网络钓鱼机器人？—— 阻止使用 ChatGPT、谷歌巴德和克劳德创建的网络钓鱼诈骗

利用大型语言模型进行自动化检测，发现现有的大型语言模型可以生成可信地伪造知名品牌的网络钓鱼邮件和网站，并且可以使用未修改的版本进行此类攻击。为了应对这一问题，建立了一个基于 BERT 的自动检测工具，可以在早期检测到恶意提示，以防止大型语言模型生成网络钓鱼内容，对于网络钓鱼网站提示可以达到 97% 的准确率，对于网络钓鱼邮件提示可以达到 94% 的准确率。

Oct, 2023

大型语言模型的横向钓鱼攻击：在大规模组织环境中的比较研究

使用大型语言模型（LLMs）创建有针对性的横向钓鱼邮件，并评估电子邮件过滤基础设施对此类 LLM 生成的钓鱼尝试的检测能力，提供了关于其有效性的洞见，并确定了潜在的改进领域。根据我们的研究结果，我们提出了基于机器学习的检测技术来检测现有基础设施未能发现的 LLM 生成的钓鱼邮件，F1 分数为 98.96。

Jan, 2024

利用大规模语言模型的有针对性网络钓鱼攻击

本研究旨在探讨自然语言模型如 GPT-3 和 GPT-2 生成有效钓鱼邮件的潜力，并提出了一个框架来评估其性能，我们的研究结果表明，自然语言模型生成的钓鱼邮件容易逃避垃圾邮件过滤器并且成功率高，在恶意目的下使用自然语言模型存在着重大安全和道德上的问题。

Dec, 2022

通过 HTML 内容的多模型分析来检测钓鱼网站

通过引入一种先进的检测模型，该研究解决了网络钓鱼的紧迫问题，并通过结合多层感知器（MLP）模型和两个预训练的自然语言处理（NLP）模型的嵌入来获得卓越的性能，特别是在分析页面标题和内容上。

Jan, 2024

运用大型语言模型革新网络威胁检测

本文介绍了 SecurityLLM，它是一个旨在检测网络安全威胁的预训练语言模型，其中 SecurityBERT 作为网络威胁检测机制，而 FalconLLM 则是一种事件响应和恢复系统，实验结果表明，我们的 SecurityLLM 模型可以在 98% 的准确率下识别 14 种不同类型的攻击。

Jun, 2023

Spam-T5: 基于大型语言模型的少样本电子邮件垃圾检测基准测试

本文旨在探究大型语言模型在垃圾邮件检测中的有效性，通过比较 BERT，Sentence Transformers 和 Seq2Seq 等不同家族的著名模型，并将 Naive Bayes 和 LightGBM 等传统方法作为基准方法。结果表明，在大多数情况下，大型语言模型优于基线技术，特别是在少样本学习中。此外，本文介绍了 Spam-T5 模型，该模型针对电子邮件垃圾邮件检测进行了专门的微调。结果表明，Spam-T5 在大多数情况下优于基线模型和其他大型语言模型。

Apr, 2023