GPT-4 能否复制实证软件工程研究？

Oct, 2023

GPT-4 能否复制实证软件工程研究？

Can GPT-4 Replicate Empirical Software Engineering Research?

Jenny T. Liang, Carmen Badea, Christian Bird, Robert DeLine, Denae Ford...

TL;DR本研究旨在考察大型语言模型（如 GPT-4）在新数据上执行经验软件工程研究的复制能力，发现 GPT-4 能够提供正确的假设，但难以生成反映软件工程数据的常规知识的假设，同时在生成的代码中存在实现层面错误，显示出对软件工程知识的欠缺。这些发现对于利用 LLMs 进行软件工程研究以及软件团队中的数据科学家具有重要意义。

Abstract

empirical software engineering research on production systems has brought forth a better understanding of the software engineering process for practitioners and researchers alike. However, only a small subset of

empirical software engineering production systems replications large language models analysis pipelines

发现论文，激发创造

GPT-4 作为研究人员和计算软件之间的接口：提高可用性和可重复性

GPT-4 在计算材料科学中应用可以解决科学软件采用自定义输入语言的挑战以及由于描述模拟方法不足导致的研究结果复现性差的问题，通过生成正确的输入文件和详细的计算任务描述，减少研究者常规任务、加速新用户培训并提高结果可复现性。

Oct, 2023

探索大型语言模型（GPT-4）在二进制逆向工程中的功效

本研究调查了大规模语言模型（LLM），特别是 GPT-4，在二进制反向工程（RE）领域的能力。通过采用结构化的实验方法，我们分析了 LLM 在解释和说明人工编写的和反编译的代码方面的性能。研究分为两个阶段：第一阶段是基本代码解释，第二阶段是更复杂的恶意软件分析。主要发现表明 LLM 在一般代码理解方面能力强，但在详细技术和安全分析方面的有效性有所不同。本研究强调了 LLM 在反向工程中的潜力和当前的局限性，为未来的应用和改进提供了关键见解。此外，我们还研究了实验方法，如评估方法和数据限制，为该领域的任何未来研究活动提供了技术视野。

Jun, 2024

超越代码生成：软件工程实践中 ChatGPT 使用的观察研究

通过对 24 名职业软件工程师使用 ChatGPT 一周期间的对话和整体体验进行定性分析，发现他们更多地使用 ChatGPT 获取解决任务的指导或对抽象主题的学习，并提出了一个理论框架，指导今后关于职业软件工程师使用 LLM 的学术讨论和设计未来经验性研究。

Apr, 2024

探索和表征用于嵌入式系统开发和调试的大型语言模型

LLMs like GPT-4 show exceptional cross-domain understanding and reasoning for embedded systems development, producing fully correct programs, functional interfaces, register-level drivers, code for LoRa communication, and context-specific power optimizations, resulting in improved productivity and success rate using an AI workflow.

Jul, 2023

ChatGPT 是否能够支持开发者？对于代码生成的大型语言模型的实证评估

大型语言模型在代码生成方面展示了显著的熟练度，并通过许多先前的研究在各种开发场景中显示了它们的有希望的能力。然而，这些研究主要在研究环境中进行评估，这在了解 LLMs 在实际开发中如何有效地支持开发人员方面存在重大差距。通过对来自开发人员与 ChatGPT 的对话的数据集 DevGPT 进行实证分析，我们的实证发现表明，目前使用 LLM 生成的代码的实践通常仅限于展示高级概念或在文档中提供示例，而不是用于生产就绪的代码。这些发现表明，在 LLMs 成为现代软件开发的重要组成部分之前，还需开展大量未来工作来改进 LLMs 在代码生成方面的能力。

Feb, 2024

大型语言模型能否给研究论文提供有用反馈？一个大规模实证分析

使用 GPT-4 模型创建了一个自动化平台，通过对科学论文的全文进行评论以评估 GPT-4 生成的反馈质量。在两项大规模研究中，我们将 GPT-4 生成的反馈与人工同行评审的反馈进行了定量比较，并通过 308 名研究人员的用户研究了解了他们对 GPT-4 生成的反馈的感知。总体而言，超过半数的用户（57.4%）认为 GPT-4 生成的反馈有所帮助，82.4% 的用户认为它比至少一些人工审稿人的反馈更有益。

Oct, 2023

利用大型语言模型扩展基于证据的教学设计专业知识

本论文探讨了在教学设计中利用大型语言模型（LLMs），尤其是 GPT-4 的全面应用。我们关注以缩小理论教育研究和实际实施之间的差距为目的，通过扩大基于证据的教学设计专业知识的规模。本文讨论了 AI 驱动内容生成的益处和局限性，强调人为监督保证教育材料质量的必要性。我们通过两个详细的案例研究阐释了这一工作，其中应用 GPT-4 创建了复杂的高阶评估和不同课程的主动学习组成部分。根据我们的经验，我们提供有效使用 LLM 的最佳实践，如利用模板，微调，处理意外输出，实施 LLM 链，引用参考文献，评估输出，创建量表，评分和生成干扰项。我们还分享了我们对未来的推荐系统的愿景，该推荐系统可以根据用户的独特教育背景，定制 GPT-4 从教育研究中提取教学设计原则，并创建个性化的、具备证据支持的策略。本研究有助于理解和最大限度地利用 AI 驱动的语言模型潜力，以增强教育成果。

May, 2023

在软件需求规格中使用 LLMs 的实证评估

使用大型语言模型（LLMs）如 GPT-4 和 CodeLlama 来加快软件开发生命周期，通过比较人工标准，评估其在生成软件需求规范（SRS）文档方面的性能；结果表明，LLMs 的输出质量可以与初级软件工程师相媲美，生成完整一致的 SRS 文档，并且还能识别和纠正问题，从而节省开发时间。

Apr, 2024

大型语言模型对科学发现的影响：使用 GPT-4 的初步研究

近年来，在自然语言处理方面取得突破性进展的大型语言模型（LLM）的出现，展示了其在包括理解、生成和翻译自然语言甚至超越语言处理的任务方面的卓越能力。本文报告中，我们深入研究了 LLM 在科学发现环境中的性能，重点关注 GPT-4，这一最先进的语言模型。我们的调查涉及药物发现、生物学、计算化学（密度泛函理论（DFT）和分子动力学（MD））、材料设计和偏微分方程（PDE）等多个科学领域。评估 GPT-4 在科学任务上的表现对于揭示其在各个研究领域中的潜力、验证其特定领域的专长、加速科学进展、优化资源分配、指导未来模型发展以及促进跨学科研究至关重要。我们的探索方法主要包括专家驱动的案例评估，提供对模型理解复杂科学概念和关系的定性洞见，以及偶尔的基准测试，定量评估模型解决明确定义的特定领域问题的能力。我们的初步探索表明，GPT-4 在各种科学应用中展示出有希望的潜力，显示出处理复杂问题解决和知识整合任务的能力。总体而言，我们评估了 GPT-4 的知识库、科学理解、科学数值计算能力以及各种科学预测能力。

Nov, 2023

ReviewerGPT？使用大型语言模型进行论文审阅的初步研究

使用 GPT-4 大型语言模型来辅助论文审核的研究发现其可以有效识别大部分错误，然而在挑选更好的论文时还存在一定误差。

Jun, 2023