Copilot 评估系统：评估 LLM 指导的软件编程

Feb, 2024

Copilot 评估系统：评估 LLM 指导的软件编程

Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming

Anisha Agarwal, Aaron Chan, Shubham Chandel, Jinu Jang, Shaun Miller...

TL;DR利用 Large Language Models（LLMs）提高开发人员在开发环境（IDEs）中的生产力是现代软件开发的重点。本文介绍了 Copilot 评估工具，用于评估 LLM 引导的 IDE 交互，在不同编程场景和语言中提供了更稳健和信息丰富的评估指标。通过这些指标，我们评估了三种常见 LLMs 的性能，为未来的 LLM 引导 IDE 场景的开发和验证提供了经验教训。

Abstract

The integration of large language models (LLMs) into development environments (IDEs) has become a focal point in modern software development. LLMs such as OpenAI GPT-3.5/4 and Code Llama offer the potential to si

large language models development environments llm-guided ide interactions evaluation harness developer tasks

发现论文，激发创造

Xcode 的协助助手：利用云端大型语言模型提供 AI 辅助编程

这篇论文介绍了一种名为 Copilot for Xcode 的 AI 辅助编程工具，通过将云端的大型语言模型与苹果的本地开发环境 Xcode 无缝集成，提高了软件开发者的生产力，释放了创造力，支持苹果软件生态系统中的软件开发。它利用先进的自然语言处理技术，有效处理代码库中的源代码令牌和模式，实现代码生成、自动完成、文档编制和错误检测等功能。软件开发者还可以通过 Copilot for Xcode 的聊天界面查询和进行 “小型” 程序组合的决策，其中一些决策可以同时进行。最后，我们通过简单的案例研究展示了在 Xcode 中利用 NLP 来促进流行的大型语言模型服务如 OpenAI ChatGPT 进行程序组合和设计的有效性。

Jul, 2023

LaMPilot：一个用于自动驾驶的开放基准数据集与语言模型程序

我们提出了 LaMPilot，一个新颖的自主驾驶规划框架，将任务重新定义为一个利用已建立的行为基元的代码生成过程，旨在解决解释和执行 spontanous 用户指令（如 “超过前面的车”）的挑战，这通常对现有框架构成困难。我们介绍了 LaMPilot 基准，专门设计用于量化大型语言模型（LLMs）在将人类指令转化为可执行驾驶策略方面的效能。我们还在 LaMPilot 基准的任务上评估了一系列最先进的代码生成语言模型。实验结果显示，带有人类反馈的 GPT-4的任务完成率达到了 92.7％，最小碰撞率为 0.9％。为了鼓励进一步的研究，我们将提供代码和数据集。

Dec, 2023

使用大型语言模型的 IDE 内基于生成的信息支持

本研究对基于大型语言模型的对话 UI 进行了研究，目标是实现上下文感知的工具，该工具可以自动利用开发人员的编程上下文来回答问题。我们为用户提供了一个 IDE 插件，允许用户使用高级请求查询后端（例如 OpenAI 的 GPT-3.5 和 GPT-4），我们进行了 32 名参与者的探索性用户研究，研究确认这种方法比 Web 搜索更有效地帮助理解代码，但效果的差异因参与者的经验水平而异。

Jul, 2023

医疗协助导航系统：调动通用 LLM 在医疗咨询中的力量

提出的医疗协作助手通过对话、记忆和处理三个组件的结合，提高了大型语言模型在医疗咨询中的查询能力、对话流畅度、回答准确性和安全性。

Feb, 2024

LLM4VV: 为编译器验证开发基于 LLM 的测试套件

探索最新的大型语言模型在代码生成方面的能力，调查提示和微调方法，并分析大型语言模型生成测试的结果。

Oct, 2023

大型语言模型的编程技能评估

通过比较 OpenAI 的 ChatGPT 和 Google 的 Gemini AI 在其免费版本中生成的编程代码的质量，以一个真实世界的例子和系统的数据集为支撑，本研究批判性地检验了这两种领先的大型语言模型的输出质量。鉴于它们在生成代码方面的显著能力，这方面的聊天机器人能力成为一项特别引人注目的分析领域。此外，编程代码的复杂性常常升级到需要验证的难度，强调了我们研究的重要性。本研究旨在揭示大型语言模型在生成高质量编程代码方面的功效和可靠性，这对软件开发领域和其他领域具有重要意义。

May, 2024

使用人工智能编程是什么体验？

本文探讨了使用大型语言模型进行编程的相似之处和不同之处，认为 LLM-assisted 编程应该被视为一种具有自己独特属性和挑战的新编程方式，并讨论了在将大型语言模型应用于非专业用户编程时可能出现的问题和研究挑战。

Aug, 2022

RealHumanEval: 评估大型语言模型对程序员的支持能力

通过使用 RealHumanEval、静态基准以及优先度度量，研究了大型语言模型（LLMs）在代码编写中的效能表现以及对程序员生产力的影响。发现优化的基准性能可以提高程序员的生产力，但基准性能与人类表现之间的差距并不成比例，同时程序员的偏好与实际表现并无关联，这促使我们需要更好、以人为中心的评估指标。同时，我们公开了 RealHumanEval 工具和研究数据以促进代码模型的改进。

Apr, 2024

使用 ChatGPT 3.5 进行代码生成的十种编程语言的比较研究

研究 ChatGPT 3.5 模型在编写代码方面的能力，评估其在 10 种编程语言和 4 个软件领域中生成代码片段的熟练程度，并发现了模型的主要意外行为和限制，旨在寻找发展的潜在领域，并检查自动生成代码对编程语言和技术行业发展的影响。

Aug, 2023

优化大型语言模型对 OpenAPI 代码补全的应用

该研究评估了 GitHub Copilot 在 OpenAPI 完成度方面的性能，并提出了一组针对任务的特定优化，利用了 Meta 的开源模型 Code Llama。该研究还提出了一种语义感知的 OpenAPI 完成度基准方法，并通过一系列实验分析了各种提示工程和微调技术对 Code Llama 模型性能的影响。经过微调的 Code Llama 模型在参数数量比商业解决方案 Codex 模型的基础下少 25 倍的情况下，将正确性改进达到了 55.2% 的峰值。此外，该研究还提出了一种改进的代码插入训练技术，解决了模型在提示上下文大小小于训练时使用的大小时性能不佳的问题。

May, 2024