ChatGPT 与 LLaMA：在 Stack Overflow 讨论中的影响力、可靠性和挑战

Feb, 2024

ChatGPT 与 LLaMA：在 Stack Overflow 讨论中的影响力、可靠性和挑战

ChatGPT vs LLaMA: Impact, Reliability, and Challenges in Stack Overflow Discussions

Leuson Da Silva, Jordan Samhi, Foutse Khomh

TL;DR自 2022 年 11 月发布以来，ChatGPT 在 Stack Overflow 这一开发者查询编程和软件开发问题的主要平台上引起了轩然大波。通过展示出对技术问题能够产生即刻、类似人类回复的能力，ChatGPT 在开发者社区中引发了关于在生成式人工智能时代的人驱动平台演变角色的讨论。在 ChatGPT 发布两个月后，Meta 推出了自己的大规模语言模型（LLM），名为 LLaMA，比赛正式开始。我们进行了一项实证研究，分析 Stack Overflow 上的问题，并使用这些 LLMs 来回答它们。通过这种方式，我们旨在（ii）衡量用户随时间的参与度演变；（ii）量化 LLMs 回答的可靠性及其在长期内取代 Stack Overflow 的潜力；（iii）识别和理解 LLMs 出错的原因；以及（iv）将 LLMs 进行比较。我们的实证结果是明确的：ChatGPT 和 LLaMA 挑战了人类专业知识，但在某些领域并未超越它，在用户发帖活动方面也观察到了显著的下降。此外，我们还讨论了我们的发现对于新 LLMs 的使用和开发的影响。

Abstract

Since its release in November 2022, chatgpt has shaken up stack overflow, the premier platform for developers' queries on programming and software development. Demonstrating an ability to generate instant, human-

chatgpt stack overflow large language model user engagement llms' reliability

发现论文，激发创造

ChatGPT 备选方案：大型语言模型调查

通过对多个 LLM 模型的研究，本文不仅提供了全面的概述，还明确了现有挑战，并指出了未来的研究方向。该综述提供了关于生成型人工智能的当前状态的全面观点，为进一步的探索、增强和创新提供了启示。

Mar, 2024

CHATGPT 与语言模型的比较分析

本文比较了 ChatGPT 在自然语言处理领域中，在机器翻译、文本摘要、问答和语言生成等方面的表现，并使用自由质量（SQ）分数与每个类别中的主要算法进行了比较。通过有效的验证策略，安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。

Mar, 2023

大型语言模型对数字公共产品构成威胁吗？基于 Stack Overflow 活动的证据

本研究通过分析 Stack Overflow 上的活动，研究了 ChatGPT 的发布对人类生成的公开数据的变化，结果显示使用 ChatGPT 回答问题的用户数量增加，同时减少了在 Stack Overflow 上的活动，这表明模型的大规模使用可能会限制未来人们和模型可以从中学习的公开数据。

Jul, 2023

扩展 ChatGPT 的前沿：代码生成和调试

本研究探讨了 ChatGPT 在解决编程问题方面的有效性，考察了其解决问题的正确性和时间、内存复杂度等效率，研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率，但其调试任务表现不佳，为 ChatGPT 的能力和改进提供了精辟的了解。

Jul, 2023

岩石编码，而非开发 --LLM 支持的软件工程任务的人为中心的实验评估

通过对 109 名参与者进行一个受控的 2 × 2 交叉试验，我们研究了 ChatGPT 在编码任务和典型软件开发任务中的协助程度以及人们与 ChatGPT 的互动关系，结果显示 ChatGPT 在解决简单编码问题方面表现良好，但在支持典型软件开发任务方面表现不佳。因此，我们提供了使用 ChatGPT 在软件工程领域与开发人员合作的第一手实验结果，并倡导提出有助于开发人员与大型语言模型有效合作以实现预期结果的新型交互机制。

Feb, 2024

大型语言模型在初级编程教育中的应用：ChatGPT 的性能和对评估的影响

该论文研究了大型语言模型（LLMs）ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现，并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务，使用完整任务描述作为 LLMs 的输入，通过 CodingBat 的单元测试评估生成的回复。此外，还分析了文本解释和程序代码的普遍可用性。结果显示得分高，正确响应率为 94.4％至 95.8％，同时文本解释和程序代码的可用性可靠，从而为将 LLMs 纳入编程教育和评估中打开了新的途径。

Aug, 2023

ChatGPT 对源代码的分析

本文介绍了如何利用大型语言模型 (LLMs) 和尤其是 ChatGPT 进行编程、源代码分析和代码生成，研究了 LLMs 和 ChatGPT 在代码创建、代码文档化、漏洞检测、重构等多个领域中的应用，并指出它们在编程社区中的使用有望得到进一步推广。

Jun, 2023

ChatGPT 在生成式人工智能和大型语言模型时代的简明调查

ChatGPT 是 OpenAI 创建的一种大型语言模型 (LLM)，通过大量数据的精心训练，推动了自然语言处理 (NLP) 的发展，并拓展了 LLM 的能力边界。本文主要目标是对 ChatGPT 及其演变的当前研究方向进行简明概述，提供了基于玻璃盒和黑盒观点的综合分析。此概述也揭示了 LLM 和 GAI 领域的现有和缺失研究方向，有益于公众用户和开发人员。

Jul, 2023

ChatGPT 能力概览及其对 AI 研究的影响

本文研究大型语言模型（LLMs）对人工智能研究的影响。通过以 GPT3.5 / ChatGPT3.4 和 ChatGPT 4 为例，我们展示这些模型具有什么样的功能，并且这些模型令人们瞩目的领域覆盖速度证明了这个趋势正在逐渐变成实现通用智能的强劲迹象。这些模型的创新也将随着这些人工智能系统的成熟而扩大，并将展示出在我们社会的多个方面具有重要影响的不可预见的应用。

May, 2023

使用 ChatGPT 3.5 进行代码生成的十种编程语言的比较研究

研究 ChatGPT 3.5 模型在编写代码方面的能力，评估其在 10 种编程语言和 4 个软件领域中生成代码片段的熟练程度，并发现了模型的主要意外行为和限制，旨在寻找发展的潜在领域，并检查自动生成代码对编程语言和技术行业发展的影响。

Aug, 2023