自动化评估面向安全上下文的 AI 生成代码的正确性

Oct, 2023

自动化评估面向安全上下文的 AI 生成代码的正确性

Automating the Correctness Assessment of AI-generated Code for Security Contexts

Domenico Cotroneo, Alessio Foggia, Cristina Improta, Pietro Liguori, Roberto Natella

TL;DR本文提出了一种名为 ACCA 的完全自动化方法，用于评估用于安全目的的 AI 生成的代码的正确性。该方法使用符号执行来评估 AI 生成的代码是否与参考实现相同，并通过比较结果与领域中广泛使用的不同基准解决方案以及 OpenAI 开发的人工智能语言模型 ChatGPT，来评估四种用于生成面向安全的汇编代码的现有模型。我们的实验表明，我们的方法优于基准解决方案，并且与人工评估类似地评估 AI 生成的代码的正确性，而人工评估在该领域被认为是基准事实。此外，ACCA 与人工评估具有非常强的相关性（平均值皮尔逊相关系数 r=0.84）。最后，由于该方法是完全自动化的，不需要任何人工干预，所以所提出的方法对于评估每个代码片段的时间平均为～0.17 秒，这肯定低于人工分析员根据我们的经验手动检查代码所需的平均时间。

Abstract

In this paper, we propose a fully automated method, named acca, to evaluate the correctness of ai-generated code for →

acca ai-generated code security symbolic execution automated method

发现论文，激发创造

评估评估者的人：关于评估基于 AI 的进攻性代码生成器的自动指标

该研究分析了在 AI 代码生成器上采用不同相似度度量方式的适用性，比较了自动估计和人工评估之间的差异，并提供了实用性见解。

Dec, 2022

通过廉价高效的提示工程提升 GitHub Copilot 的基于 AI 的代码合成安全性

提出并评估了三种 Prompt 修改方法，并在实际场景中使用 OpenVPN 项目对 GitHub Copilot 的有效性进行了评估，结果表明这些方法可减少不安全的生成代码样本的数量高达 16％，增加安全代码的数量高达 8％。

Mar, 2024

AI 辅助编码：GPT-4 实验

本文使用 GPT-4 进行了多项实验来生成计算机代码，发现 AI 编码工具需要人类的验证才能确保准确性和可靠性。同时，使用 GPT-4 进行代码改进可以显著提高代码质量，但生成的测试仍需要人类验证。

Apr, 2023

ReACC：一种检索增强型代码补全框架

本文提出了一种利用外部代码片段参考的检索增强代码补全框架，使用统计语言模型来训练，实现了针对 Python 和 Java 编程语言的最新表现状态的代码补全任务。

Mar, 2022

CodeT：生成测试的代码生成

在本文中，我们提出了一种新方法 CodeT，利用预先训练的语言模型自动生成代码示例的测试用例，从而减少人工成本并增加测试场景的覆盖范围，最终实现基于生成的测试用例的代码解决方案选择。

Jul, 2022

基于 Transformer 的代码质量评估

使用 CodeBERT 自动为 Java 代码分配质量评分，同时探索不同模型和训练范式对于代码质量评估的准确性，并使用新颖数据集评估预测的质量，发现基于 Transformer 模型的任务适应预训练方法比其他技术更高效地解决该任务。

Sep, 2023

AI 编码：学习构建纠错码

通过人工智能技术设计纠错码的方法和框架，虽然这种方法不依赖于编码理论，但是使用强化学习和进化算法构建的线性码和极化码等码的性能仍然可以与经典编码的性能相当，甚至优于经典编码构造方式在某些情况下无法实现最优表现。

Jan, 2019

现代代码审查中的人工智能辅助编码实践评估

AutoCommenter 是一个自动学习和执行编码最佳实践的系统，针对四种编程语言进行了实现和评估，结果表明其对开发者工作流程有积极影响，并述及了在大规模部署中所面临的挑战和相应的经验教训。

May, 2024

将人工智能配对编程的离线度量与人类价值判断对齐

研究表明，具有实现代码自动生成能力的大型语言模型的正确性及努力度均对程序员的价值有影响，建议设计出更人性化的评估指标以评估这些模型的优劣。

Oct, 2022

Kattis 与 ChatGPT：人工智能时代编程任务的评估与评价

本文研究了 ChatGPT 在入门编程课程中生成不同难度程度的代码解决方案的能力，并发现 ChatGPT 能够独立解决一部分编程问题，但在复杂任务上遇到困难，结果为编程教育中应用 AI 工具的效用问题提供了新的观点。

Dec, 2023