用大型语言模型在npm生态系统中检测恶意软件

Mar, 2024

用大型语言模型在npm生态系统中检测恶意软件

Shifting the Lens: Detecting Malware in npm Ecosystem with Large Language Models

Nusrat Zahan, Philipp Burckhardt, Mikola Lysenko, Feross Aboukhadijeh, Laurie Williams

TL;DR通过大型语言模型的实证研究，我们提出了SocketAI Scanner，使用迭代自我完善和零-shot角色扮演Thought (CoT)提示技术的多阶段决策器恶意软件检测工作流，来协助安全分析人员在npm生态系统中检测潜在的恶意软件。我们的研究结果表明，GPT模型在误报率低的情况下具有良好的性能，对静态分析工具的基准比较显示出明显的改进。GPT-3模型的精确度和F1得分分别达到了91%和94%，而GPT-4模型在精确度（99%）和F1得分（97%）方面表现出卓越的性能。

Abstract

The Gartner 2022 report predicts that 45% of organizations worldwide will encounter software supply chain attacks by 2025, highlighting the urgency to improve software supply chain security for community and national interests. Current →

发现论文，激发创造

使用大型语言模型分析软件供应链安全故障的实证研究

在这项研究中，我们评估了大型语言模型（LLMs）分析历史软件供应链违规行为的能力。我们使用LLMs复制了Cloud Native Computing Foundation (CNCF)成员对69个软件供应链安全违规行为的手动分析，并根据四个维度开发了LLMs的提示：侵害类型、意图、性质和影响。我们报告了当源文章足够详细以便在手动分析员中形成共识时，LLMs能够有效地描述软件供应链违规行为，但不能取代人工分析员。未来的工作可以提高LLMs在这个背景下的性能，并研究更广泛的文章和违规行为。

Aug, 2023

大型语言模型能否发现和修复易受攻击的软件？

通过评估OpenAI的GPT-4等大型语言模型与传统的静态代码分析器（如Snyk和Fortify）在检测软件漏洞方面的能力，我们发现GPT-4能够识别出大约四倍于其他模型的漏洞，并提供可行的修复方案，同时显示出较低的误报率。未来研究应当探索系统级漏洞，并整合多个静态代码分析器，以获得对大型语言模型潜力的全面视角。

Aug, 2023

基于工具的恶意软件动态分析：利用GPT-4

通过使用GPT-4进行提示工程辅助的恶意软件动态分析方法，在API序列中为每个API调用创建说明性文本，利用预训练的语言模型BERT获取文本的表示，从而获得API序列的表示。通过这种方法，本文提出能够生成所有API调用的表示，无需在生成过程中进行数据集训练。利用该表示，设计了一种基于CNN的检测模型，并通过五个基准数据集验证了该模型的性能优于最先进的方法(TextCNN)。在跨数据库实验和少样本学习实验中，该模型表现出良好的检测性能，并几乎达到100％的恶意软件召回率，证实了其卓越的泛化性能。

Dec, 2023

从结构交互中发现软件中的恶意签名

提出了一种新颖的计算机病毒检测方法，利用深度学习、数学技术和网络科学，通过对复杂网络中应用程序进行静态和动态分析，利用生成的网络拓扑图输入到GraphSAGE架构中，以节点特征表示操作名称，通过分析网络的拓扑几何结构进行预测，达到检测最新型计算机病毒并在虚拟机执行期间防止潜在损害的目的。实验证明，该方法在计算机病毒检测方面取得了显著的改进。

Dec, 2023

TESSERACT: 消除恶意软件分类中的实验偏见——跨时空的研究（扩展版）

本论文通过引入公平实验设计的一组约束条件和AUT度量，提出了解决恶意软件检测任务中实验偏差的方法，并提供了一个能够增强分类器性能的算法，以及一个用于实际分类器比较的开源框架TESSERACT。研究发现以前的研究存在偏差，并通过适时调整的多种策略来延缓性能下降，从而实现更稳定和更好的性能。

Feb, 2024

大型语言模型在漏洞检测方面的能力综合研究

大型语言模型在漏洞检测方面的推理能力较差，常出现错误定位漏洞代码和错误识别漏洞类型的情况。

Mar, 2024

利用大型语言模型进行软件漏洞检测：综合基准研究

通过使用大型语言模型（LLMs）来辅助发现源代码中的漏洞，相比传统的静态分析工具，我们发现LLMs能够找出更多问题，提高漏洞检测的回溯率和F1分数，从而使得代码更加安全。

May, 2024

检测新的混淆恶意软件变体：一种轻量且可解释的机器学习方法

通过仅训练模型于单个或几个精选的恶意软件子类型并应用于检测未知子类型，本研究首次证明了通过独家训练的模型的准确性、轻量级和可解释性，为检测混淆恶意软件的可行性进行了创新的方法。

Jul, 2024

基于生成预训练变换器模型的自动化软件脆弱性静态代码分析

本研究解决了自动识别C和C++代码中脆弱语法的困难问题，通过评估开放源代码的GPT模型在这一任务中的有效性。尽管发现模型的误报和漏报率较高，不适合全面自动化扫描，但在某些测试用例中表现出色，能够准确识别脆弱代码的具体行，显示出潜在的应用价值。

Jul, 2024

ANVIL：基于异常的无标签训练数据漏洞识别

本研究针对当前监督学习的漏洞检测器因缺乏标记训练数据而导致的局限性，通过将漏洞检测重新构建为异常检测来解决这一问题。我们提出的ANVIL检测器在行级别有效地识别软件漏洞，实验结果表明，ANVIL在无标签训练的情况下，其准确性显著优于现有的有标签数据训练的检测器。

Aug, 2024