面向无需测试的故障定位的大型语言模型
这篇论文提出了一种利用大型语言模型(LLMs)自动识别导致测试失败的代码更改的新方法,并通过定量和定性评估验证了该方法的有效性。通过 EA 开发者报告的问题进行的数据集评估结果显示,我们的方法在准确率上达到了 71%。此外,通过用户研究对我们的模型进行了评估,结果显示在开发者的视角下使用该工具可以显著减少问题调查所需的时间,最高可达 60%。
Jun, 2024
使用大型语言模型的程序修复任务中,通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集,我们的系统能够在更少的案例中准确匹配人工修复,并显著提升可用模型的性能。
Feb, 2024
RepairLLaMA 是一种新颖的程序修复方法,结合了 APR 的代码表示和名为 LoRA 的最先进的参数高效 LLM 微调技术,从而产生了一个高度有效的 “程序修复适配器” 来修复语言模型中的错误。
Dec, 2023
研究致力于自动修复代码漏洞的复杂挑战,引入了一种新的代码修改表示格式,使用了先进的大型语言模型(如 Code Llama 和 Mistral)。这些模型在 C 代码漏洞数据集上进行了微调,显着提高了自动代码修复技术的准确性和适应性。研究还对当前的评估指标(如完美预测)进行了关键评估,并强调了在真实场景中反映自动修复模型真正能力的局限性。研究强调了在代码修复任务中提高 LLMs 效果的数据集完整性和训练样本缺失测试数据集的重要性。此工作对数字安全的贡献不仅体现在提高代码安全方面的潜力上,而且推动了这些关键领域的进一步探索与研究。
Jan, 2024
通过使用大型语言模型(LLMs)来辅助发现源代码中的漏洞,相比传统的静态分析工具,我们发现 LLMs 能够找出更多问题,提高漏洞检测的回溯率和 F1 分数,从而使得代码更加安全。
May, 2024
本研究提出了一种新的可行的故障定位方法,即 TFLMs,并与传统的 probabilistic debugging 系统进行了比较,结果表明 TFLMs 具有更好的定位性能。
Jul, 2015
本文研究了一种新的适用于程序修复的方法,发现目标对齐对于充分利用 LLM 的预训练能力是关键的,并通过直接调试替代传统的定位 - 修复工作流程,提出了一种新的思路来利用 LLMs 进行 APR。
Apr, 2024
本研究首次探讨大型语言模型(LLMs)在故障模式分类(FMC)中的有效性,并通过使用限制代码表的方式详细介绍了促使 LLM 预测给定观察结果的故障模式的方法。我们展示了在注释数据上进行微调的 GPT-3.5 模型(F1=0.80)在性能上明显优于在相同注释数据集上训练的当前可用文本分类模型(F1=0.60)。该微调模型也优于开箱即用的 GPT-3.5 模型(F1=0.46)。这项研究强调了使用 LLMs 进行特定领域任务时的高质量微调数据集的必要性。
Sep, 2023
利用预训练的大型语言模型 (LLM) 增强结构化数据的灰盒模糊测试,通过利用 LLM 的先前训练知识和基于 Magma 等基准的实验,LLAMAFUZZ 比其他方法平均提高了 41 个漏洞的检测,实现了一致的性能提升。
Jun, 2024