解开绳结：在计算笔记本中利用 LLM 进行错误解决

Mar, 2024

解开绳结：在计算笔记本中利用 LLM 进行错误解决

Untangling Knots: Leveraging LLM for Error Resolution in Computational Notebooks

Konstantin Grotov, Sergey Titov, Yaroslav Zharov, Timofey Bryksin

TL;DR计算笔记本的问题解决方法是使用一个基于迭代的大型语言模型的代理程序，以解决计算笔记本中的错误，并提供了一个包含错误的计算笔记本数据集。

Abstract

computational notebooks became indispensable tools for research-related development, offering unprecedented interactivity and flexibility in the development process. However, these benefits come at the cost of

computational notebooks bug fixing reproducibility interactivity large language models

发现论文，激发创造

利用大型语言模型增强自动化代码漏洞修复

研究致力于自动修复代码漏洞的复杂挑战，引入了一种新的代码修改表示格式，使用了先进的大型语言模型（如 Code Llama 和 Mistral）。这些模型在 C 代码漏洞数据集上进行了微调，显着提高了自动代码修复技术的准确性和适应性。研究还对当前的评估指标（如完美预测）进行了关键评估，并强调了在真实场景中反映自动修复模型真正能力的局限性。研究强调了在代码修复任务中提高 LLMs 效果的数据集完整性和训练样本缺失测试数据集的重要性。此工作对数字安全的贡献不仅体现在提高代码安全方面的潜力上，而且推动了这些关键领域的进一步探索与研究。

Jan, 2024

性能对齐的 LLM 用于生成高效代码

通过引入强化学习的方法，将代码 LMM 的输出与性能对齐，提高生成代码的期望加速比，并在一组基准任务中展示了 0.9 至 1.6 倍的串行代码速度提升和 1.9 至 4.5 倍的 OpenMP 代码速度提升。

Apr, 2024

DeepCode AI Fix: 用大型语言模型修复安全漏洞

使用大型语言模型的程序修复任务中，通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集，我们的系统能够在更少的案例中准确匹配人工修复，并显著提升可用模型的性能。

Feb, 2024

利用线性逻辑方法进行软件漏洞和功能评估

通过研究使用大型语言模型（LLMs）在代码审查中的作用，其中包括检测安全漏洞和验证软件功能的有效性，本文发现大型专有模型在这些任务上的性能显著优于小型开源模型，并证明了 LLMs 能够生成与真实漏洞相关的详细描述。

Mar, 2024

在游戏开发中利用大型语言模型进行高效的故障分析

这篇论文提出了一种利用大型语言模型（LLMs）自动识别导致测试失败的代码更改的新方法，并通过定量和定性评估验证了该方法的有效性。通过 EA 开发者报告的问题进行的数据集评估结果显示，我们的方法在准确率上达到了 71％。此外，通过用户研究对我们的模型进行了评估，结果显示在开发者的视角下使用该工具可以显著减少问题调查所需的时间，最高可达 60％。

Jun, 2024

利用大型语言模型进行软件漏洞检测：综合基准研究

通过使用大型语言模型（LLMs）来辅助发现源代码中的漏洞，相比传统的静态分析工具，我们发现 LLMs 能够找出更多问题，提高漏洞检测的回溯率和 F1 分数，从而使得代码更加安全。

May, 2024

利用 LLMs 实现内容为中心的认知代理的知识获取自动化

该论文介绍了一种利用大型语言模型技术支持智能代理语义词典中新条目的自动学习的系统。这种学习方法通过现有的非玩具词典和自然语言生成器引导启动，将意义的表达按基本本体建立转换为自然语言句子。此学习方法已应用于学习多词表达式，其含义与智能代理语义词典中的及物动词等效。实验展示了一种融合基于知识的方法、资源、传统数据分析和大型语言模型的混合学习架构的优势。

Dec, 2023

用于代码生成和数据分析的科学语言模型

该研究报告关注大型语言模型在科学研究中的应用，调查了使用 LLM 工具的若干实际案例，特别是与软件工程相关的用例，结果显示了大型语言模型工具的潜力和问题。

Nov, 2023

从自然语言问题描述生成功能正确的代码编辑

本文提出了将自然语言编程描述翻译为正确代码修改的任务 NL2Fix，为此引入了包含高级 Bug 修复描述的 Defects4J-NL2Fix 数据集，并对多种最先进的 LLMs 进行了实证评估，结果表明这些 LLMs 能够对 64.6% 的错误生成合理的修复，并且最佳 LLM 技术在此基准测试中可以达到 21.20% 的 top-1 和 35.68% 的 top-5 精度。

Apr, 2023

LLMs 是否能配置软件工具

使用大型语言模型来改进软件配置过程，特别是在超参数配置方面，通过识别起始条件和缩小搜索空间，提高效率。在大量实验中发现，LLM 生成的响应的可变性以及基于领域特定关键词的一致行为，揭示了 LLM 在初始化过程和配置优化方面的潜力，但也强调了需要进一步深入研究和实验。

Dec, 2023