研究 R 中易受攻击的代码实体

Feb, 2024

Studying Vulnerable Code Entities in R

Zixiao Zhao, Millon Madhur Das, Fatemeh H. Fard

TL;DR本研究主要调查了 Code-PLMs 在 R 语言中的代码实体的脆弱性，结果显示标识符是最容易受到攻击的代码实体，其次是一些特定于 R 语言的语法标记，这些结果对于理解标记类型的重要性以及开发 R 语言的代码摘要和方法名预测模型具有指导意义。

Abstract

Pre-trained Code Language Models (code-plms) have shown many advancements and achieved state-of-the-art results for many software engineering tasks in the past few years. These models are mainly targeted for popular programming languages such as Java and Python, leaving out many other

code-plms r vulnerability code summarization token types

发现论文，激发创造

CodeAttack：预训练编程语言模型的基于代码的对抗性攻击

CodeAttack 是一个基于代码结构的黑盒攻击模型，检测了最先进的预训练编程语言模型对特定于代码的对抗攻击的脆弱性，并成功地在不同编程语言的多个代码 - 代码和代码 - NL 任务中实现了最佳性能下降。

May, 2022

使用代码语言模型进行漏洞检测：我们离目标还有多远？

在代码语言模型（Code LMs）和漏洞检测不断增长的兴趣下，我们研究了代码语言模型在漏洞检测方面的有效性。研究发现现有漏洞数据集存在重要不足，包括数据质量不高、标签准确性低和重复率高，导致模型在现实漏洞检测场景中的性能不可靠。为解决这些挑战，我们引入了 PrimeVul 数据集，用于训练和评估代码语言模型在漏洞检测方面的性能。通过对 PrimeVul 上的代码语言模型进行评估，发现现有基准明显高估了这些模型的性能。这些发现强调了当前能力和在安全角色中部署代码语言模型的实际需求之间存在的巨大差距，突出了在这一领域需要更多创新的研究。

Mar, 2024

BERT 中代码注意力的探索研究

研究表明，将标识符用于代码克隆检测中，可以增加 Transformers 预训练语言模型的性能，对代码进行特定的表示，而不是应用于自然语言处理的通用表示。

Apr, 2022

利用大型语言模型进行软件漏洞检测：综合基准研究

通过使用大型语言模型（LLMs）来辅助发现源代码中的漏洞，相比传统的静态分析工具，我们发现 LLMs 能够找出更多问题，提高漏洞检测的回溯率和 F1 分数，从而使得代码更加安全。

May, 2024

利用增强学习和语义奖励的 LLM 驱动代码漏洞修复

我们引入了一种多用途的代码漏洞分析系统 SecRepair，由一个大型语言模型 CodeGen2 提供支持，帮助开发人员识别和生成修复后的代码，并附带一个完整的漏洞描述和代码评论。我们的创新方法利用增强学习范式来生成由语义奖励机制增强的代码评论。研究结果强调，将增强学习与语义奖励结合起来，提高了模型在处理代码漏洞方面的能力和效果。

Jan, 2024

语义保持的对抗性代码理解

本文提出一种语义保持的对抗代码嵌入方法，用于提高预训练语言模型在代码理解中的性能和防御对抗攻击。实验证明该方法可以在不降低性能的情况下提高模型的稳定性。

Sep, 2022

大型语言模型在漏洞检测方面的能力综合研究

大型语言模型在漏洞检测方面的推理能力较差，常出现错误定位漏洞代码和错误识别漏洞类型的情况。

Mar, 2024

利用线性逻辑方法进行软件漏洞和功能评估

通过研究使用大型语言模型（LLMs）在代码审查中的作用，其中包括检测安全漏洞和验证软件功能的有效性，本文发现大型专有模型在这些任务上的性能显著优于小型开源模型，并证明了 LLMs 能够生成与真实漏洞相关的详细描述。

Mar, 2024

利用大型语言模型增强自动化代码漏洞修复

研究致力于自动修复代码漏洞的复杂挑战，引入了一种新的代码修改表示格式，使用了先进的大型语言模型（如 Code Llama 和 Mistral）。这些模型在 C 代码漏洞数据集上进行了微调，显着提高了自动代码修复技术的准确性和适应性。研究还对当前的评估指标（如完美预测）进行了关键评估，并强调了在真实场景中反映自动修复模型真正能力的局限性。研究强调了在代码修复任务中提高 LLMs 效果的数据集完整性和训练样本缺失测试数据集的重要性。此工作对数字安全的贡献不仅体现在提高代码安全方面的潜力上，而且推动了这些关键领域的进一步探索与研究。

Jan, 2024

基于 Transformer 的语言模型用于软件漏洞检测

本研究探讨了如何利用基于 transformer 的语言模型来检测软件漏洞，研究了在处理具有多个漏洞的 C/C++ 源代码时，这些模型的性能如何，并发现与当时的双向 LSTM 和双向 GRU 等其他模型相比，这些语言模型在漏洞检测方面具有更好的性能指标。此外，该论文还分析了流行的平台来有效地进行微调，并在选择平台时提供了建议。

Apr, 2022