大型代码模型是否理解编程概念？黑盒方法

Feb, 2024

大型代码模型是否理解编程概念？黑盒方法

Do Large Code Models Understand Programming Concepts? A Black-box Approach

Ashish Hooda, Mihai Christodorescu, Miltos Allamanis, Aaron Wilson, Kassem Fawaz...

TL;DR大型语言模型在文本生成方面的成功也使它们在代码生成和编码任务方面表现更好。然而，尽管有许多研究展示了它们在代码完成和编辑等任务上的出色性能，但是为什么如此仍然不清楚。我们通过研究来探讨自回归模型理解底层程序的逻辑结构的程度。我们提出了用于程序概念预测的反事实分析（Counterfactual Analysis for Programming Concept Predicates，CACP）作为一个反事实测试框架，以评估大型代码模型对编程概念的理解程度。我们通过只具有黑盒访问模型的能力，使用 CACP 评估了十个流行的大型代码模型在四个不同的编程概念上的表现。我们的研究结果表明当前的模型在数据流和控制流等概念上缺乏理解。

Abstract

large language models' success on text generation has also made them better at code generation and coding tasks. While a lot of work has d

large language models code generation coding tasks auto-regressive models programming concepts

发现论文，激发创造

基于大型语言模型的代码生成的基准测试与解释：一种因果关系为中心的方法

基于因果分析的方法用于系统地分析大语言模型（LLMs）输入提示与生成代码之间的因果关系，研究结果展示了该技术在提供 LLMs 有效性方面的潜力，并帮助最终用户理解预测，同时提供改进 LLMs 生成代码质量的可操作见解。

Oct, 2023

探究大型编程语言模型的因果推理能力中的 IF 魔术

研究人员比较了基于文本和代码的大型语言模型对因果推理的能力，结果表明，相较于只针对文本的模型，基于代码编写的模型在因果推理方面更为出色。

May, 2023

比较由学生和大型语言模型创建的代码解释

通过对大型语言模型进行评估，并将其与学生创建的代码解释进行比较，本文发现自动生成的 LLM 代码解释具有更高的准确性和易理解性，从而提供了一种解决教育中代码解释挑战的新方法。

Apr, 2023

何时使用思考方案进行推理？

利用结构和逻辑属性以及优化代码复杂度对大型语言模型 (LLM) 的推理能力进行评估和改进。

Aug, 2023

大型语言模型是否遵循概念注释指南？科学和金融领域案例研究

大语言模型通过指导文本对句子进行标记涉及了利用上下文示例的广泛语言模型，根据我们的简单评估方法，我们发现开源语言模型与领先的专有 API 之间在概念理解方面存在显著差距。

Nov, 2023

使用大型语言模型自动生成编程练习和代码解释

本文研究了利用大型语言模型进行自然语言生成的能力，并应用于编程课程中常见的两种学习资源的制作。研究发现，在创建编程练习时，只需要输入关键词，即可显著影响编程概念和上下文主题的内容，同时也证明了大多数自动生成的内容是全新且合理的。这些结果表明，使用大型生成机器学习模型作为教学工具是有重要价值的，但在交付给学生之前需要一些监督来确保生成的内容质量。文章还探讨了 OpenAI Codex 及类似工具对初学者编程教育的影响，并强调了可能改善教学体验的未来研究方向。

Jun, 2022

自动编程：大型语言模型与更多

自动编程的流行增加了对代码质量、安全性、程序修复和程序员责任等相关问题的关注，这些问题是组织在决定使用自动生成代码时所关心的关键问题，本文研究了自动编程的各个方面，并讨论了软件工程的进展，如程序修复和分析可以实现自动编程，并对未来的编程环境提出了展望，认为程序员可能需要转变角色以充分利用自动编程的力量。通过从大型语言模型自动生成的程序进行自动修复，可以生成更可靠的代码，并提供可靠性证据。

May, 2024

冒牌难题：编码语言模型能掌握其错误生成的细微变化吗？

语言模型在代码生成方面越来越熟练，但仍经常生成错误的程序。许多错误程序明显有问题，但其他程序更加微妙，通过一些较弱的正确性检查（如编译）可以通过。本研究侧重于这些伪造样本：从语言模型中抽样出的程序，1) 具有足够高的 log 概率以在中等温度下生成，2) 通过弱正确性检查。通过研究我们发现，大多数模型对伪造样本的理解非常浅显，存在三种明显的失效模式。第一，模型错误地将它们分类为正确的。第二，模型在推理伪造样本的执行行为方面表现较差，通常会预测其执行结果就像它们是正确的一样。第三，在要求模型修复伪造样本时，模型成功修复伪造样本的可能性通常甚至低于从头开始抽样出一个正确程序的可能性。伪造样本也具有非常意外的特性：首先，模型更容易解决的问题的伪造程序不一定更容易被检测，只是稍微更容易执行和修复。其次，对于给定模型而言，伪造样本对模型本身和其他模型都具有相同的困惑。最后，强弱模型都能够生成对所有模型都构成挑战的伪造样本。根据我们的研究结果，我们建议在依赖模型理解其自身样本时要谨慎小心，特别是当没有引入外部反馈时。

Feb, 2024

AI 辅助编程的大代码的自然语言生成与理解：综述

该研究论文综述了自然语言处理技术的利用，重点关注使用大型代码训练的基于 Transformer 的大型语言模型在 AI 辅助编程任务领域中的应用。这些模型在包括代码生成、代码补全、代码翻译、代码概述、缺陷检测和克隆检测等 AI 辅助编程应用中扮演着关键角色，而其中值得注意的例子包括由 OpenAI 的 Codex 和 DeepMind AlphaCode 提供支持的 GitHub Copilot。本文概述了主要的大型语言模型及其在与 AI 辅助编程相关的下游任务中的应用，并探讨了在这些应用中结合 NLP 技术和软件自然性面临的挑战和机遇，同时讨论了将 AI 辅助编程能力拓展到苹果的 Xcode 移动软件开发环境中的问题和机会，以使开发人员能够获得更先进的编码辅助，并使软件开发流程更加高效。

Jul, 2023

发现代码生成中偏差的简单而有效方法

本文探究了现有代码生成系统中基于大型语言模型的偏见在特定情况下可能泄漏到生成代码中的问题，提出了一种自动消除提示并暴露各种偏见的框架，并将其应用于三个编码挑战中测试，发现代码生成模型存在特定提示结构和关键字的偏见，最后，我们展示了如何将我们的框架作为数据转换技术，这是更强大的代码生成方向。

Oct, 2022