基于大型语言模型的智能合约漏洞检测:新视角
综述了大规模语言模型(LLMs)生成内容检测的现有策略和基准,并指出该领域的关键挑战和前景,提倡采用更加适应性和稳健的模型来提高检测准确性,以及应对 LLMs 能力快速发展的多方面防御方法的必要性。该工作是在 LLMs 时代首部全面综述内容检测的研究,旨在为研究人员和从业者提供广泛了解 LLMs 生成内容检测的当前情况的指导参考,以保护数字信息的完整性。
Oct, 2023
通过评估 OpenAI 的 GPT-4 等大型语言模型与传统的静态代码分析器(如 Snyk 和 Fortify)在检测软件漏洞方面的能力,我们发现 GPT-4 能够识别出大约四倍于其他模型的漏洞,并提供可行的修复方案,同时显示出较低的误报率。未来研究应当探索系统级漏洞,并整合多个静态代码分析器,以获得对大型语言模型潜力的全面视角。
Aug, 2023
通过使用大型语言模型(LLMs)来辅助发现源代码中的漏洞,相比传统的静态分析工具,我们发现 LLMs 能够找出更多问题,提高漏洞检测的回溯率和 F1 分数,从而使得代码更加安全。
May, 2024
Code Pre-trained Models (CodePTMs) based vulnerability detection struggles to generalize as they typically learn superficial mapping from source code to labels, resulting in poor performance in real-world scenarios. To address this, VulLLM integrates multi-task learning with Large Language Models (LLMs) to effectively mine deep-seated vulnerability features, surpassing seven state-of-the-art models in terms of effectiveness, generalization, and robustness.
Jun, 2024
我们提供了对大语言模型的生成文本影响的全面分析,并强调了当前最先进的 GPT 检测器中可能存在的鲁棒性缺失。为了解决学术写作中滥用大语言模型的问题,我们提出了一种基于参考文本的孪生检测器 Synthetic-Siamese,将一对文本作为查询和参考,该方法有效解决了以前检测器(OpenAI detector 和 DetectGPT)的鲁棒性缺失,并将基线性能在实际学术写作场景中提高了约 67% 至 95%。
Jan, 2024
我们提出了一个名为 LLM4Vuln 的统一评估框架,通过将 LLMs 的漏洞推理能力与其他能力进行分离,并评估结合其他能力的方式来增强 LLMs 的漏洞推理能力。在使用 75 个经过广泛审计的智能合约漏洞进行控制实验的基础上,我们测试了三个代表性的 LLMs(GPT-4,Mixtral 和 Code Llama)在 4950 种不同场景下的表现。我们的结果不仅揭示了关于知识增强、上下文补充、提示方案和模型的变化效果的十个发现,还使我们能够在两个试点的漏洞赏金计划中发现 9 个零日漏洞,并颁发了超过 1,000 美元的奖励。
Jan, 2024
利用 GPT 与静态分析结合的智能合约逻辑漏洞检测工具 GPTScan,具有高准确度和低误报率,快速且经济高效。
Aug, 2023
本篇研究针对近年来大模型语言技术的快速普及及不断提高的适应性,提出了具有高效性和稳定性的人造文本检测方法。该方法能够辨别多种模型和解码策略生成的人造文本,并具有抗检测的能力。此外,研究还对机器生成文本检测机制的鲁棒性做出了贡献,揭示了在使用大规模语言模型技术时存在的社会和伦理问题,并提出了相应的解决方案。
May, 2023