低资源语言中的软件漏洞预测:CodeBERT 和 ChatGPT 的实证研究
ChatGPT 通过在高资源语言中表现和预测答案准确性的能力进行分析,发现高资源语言表现与英语相似,但 ChatGPT 缺乏良好的置信度校准,常常过于自信且不会给出低置信度值。
Nov, 2023
本技术报告评估了 ChatGPT 和 GPT-3 模型在代码漏洞检测任务上的性能。通过使用 CWE 漏洞的二进制和多标签分类任务对真实世界数据集进行评估,结果表明 ChatGPT 在代码漏洞检测的二进制和多标签分类任务中表现不如一个虚拟分类器。
Apr, 2023
本文探索了 ChatGPT 在涉及完整漏洞管理过程的六项任务中的能力,并使用包含 78,445 个样本的大规模数据集对其进行了比较。结果表明 ChatGPT 在辅助漏洞管理方面具有巨大的潜力,但同时也揭示了它所遇到的困难,并为未来的研究方向提供了启示。
Nov, 2023
将 ChatGPT 生成的代码与 StackOverflow 的代码进行比较,发现 ChatGPT 生成的代码存在较少的漏洞和较少的常见弱点枚举类型,结果表明开发人员对于两个平台的代码传播存在不安全的认识,需要采取良好的软件工程实践来降低风险。
Mar, 2024
本研究探讨了如何利用基于 transformer 的语言模型来检测软件漏洞,研究了在处理具有多个漏洞的 C/C++ 源代码时,这些模型的性能如何,并发现与当时的双向 LSTM 和双向 GRU 等其他模型相比,这些语言模型在漏洞检测方面具有更好的性能指标。此外,该论文还分析了流行的平台来有效地进行微调,并在选择平台时提供了建议。
Apr, 2022
使用 FLORES-200 基准测试,我们提供了首个针对 204 种语言的实验证据和机器翻译成本分析,发现 GPT 模型在某些高资源语言上接近或超过传统机器翻译模型的性能,但在低资源语言上表现一直落后于传统机器翻译,对于我们覆盖的语言中的 84.1%,ChatGPT 的翻译能力低于传统机器翻译模型水平。我们的分析表明,语言的资源水平是决定 ChatGPT 相对翻译能力的最重要特征,并且暗示 ChatGPT 在低资源语言和非洲语言上处于劣势。
Sep, 2023
使用转移学习技术,提出了一种智能自动软件漏洞检测模型,通过使用各种编程语言的代码样本训练卷积神经网络(CNN)模型,并使用可解释人工智能,成功检测出 C 和 Java 代码中的常见漏洞。
Mar, 2023
我们评估了 ChatGPT(2023 年 2 月版本),即一个大规模语言模型,在解决典型的介绍性计算机工程考试中出现的概率问题方面的效果。我们的研究包括了一套 23 个概率练习,这些练习被用来测试马德里市 Rey Juan Carlos 大学(URJC)的学生。我们对 ChatGPT 生成的回答进行了定性评估,并根据与学生相同的标准评分。我们的结果表明,ChatGPT 在措辞、组织和逻辑推理方面超过了平均学生。该模型在西班牙语和英语版本的练习中表现一致。然而,ChatGPT 在执行基本的数值运算方面遇到了困难。我们的实验表明,要求 ChatGPT 以 R 脚本形式提供解决方案是克服这些限制的有效方法。总之,我们的结果表明,ChatGPT 在解决计算机工程入门考试中常见的概率问题方面超过了平均学生。然而,该模型在某些概率概念的推理方面存在局限性。大型语言模型在提供高质量解释和以任何编程语言呈现解决方案方面的能力,以及其在解决概率练习中的表现,显示了它们作为学习助理的潜力。
Oct, 2023
大型语言模型在代码生成方面展示了显著的熟练度,并通过许多先前的研究在各种开发场景中显示了它们的有希望的能力。然而,这些研究主要在研究环境中进行评估,这在了解 LLMs 在实际开发中如何有效地支持开发人员方面存在重大差距。通过对来自开发人员与 ChatGPT 的对话的数据集 DevGPT 进行实证分析,我们的实证发现表明,目前使用 LLM 生成的代码的实践通常仅限于展示高级概念或在文档中提供示例,而不是用于生产就绪的代码。这些发现表明,在 LLMs 成为现代软件开发的重要组成部分之前,还需开展大量未来工作来改进 LLMs 在代码生成方面的能力。
Feb, 2024
研究论文通过使用先进的分类技术来区分由人写的代码和由 ChatGPT 生成的代码,探讨了大型语言模型在代码生成中的影响,特别是在高等教育领域的潜在风险和对策。
May, 2024