ChatGPT 对源代码的分析
研究 ChatGPT 3.5 模型在编写代码方面的能力,评估其在 10 种编程语言和 4 个软件领域中生成代码片段的熟练程度,并发现了模型的主要意外行为和限制,旨在寻找发展的潜在领域,并检查自动生成代码对编程语言和技术行业发展的影响。
Aug, 2023
本研究探讨了 ChatGPT 在解决编程问题方面的有效性,考察了其解决问题的正确性和时间、内存复杂度等效率,研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率,但其调试任务表现不佳,为 ChatGPT 的能力和改进提供了精辟的了解。
Jul, 2023
该论文研究了大型语言模型(LLMs)ChatGPT-3.5 和 GPT-4 在解决入门级编程任务中的表现,并根据表现得出了利用 LLMs 进行教学场景和评估格式的暗示。研究选取了来自免费网站 CodingBat 的 72 个针对初学者的 Python 任务,使用完整任务描述作为 LLMs 的输入,通过 CodingBat 的单元测试评估生成的回复。此外,还分析了文本解释和程序代码的普遍可用性。结果显示得分高,正确响应率为 94.4%至 95.8%,同时文本解释和程序代码的可用性可靠,从而为将 LLMs 纳入编程教育和评估中打开了新的途径。
Aug, 2023
通过分析大型语言模型(LLMs)与入门级编程学生的交互,我们了解到了学生们与 ChatGPT-3.5 等相关工具的互动情况,这将对未来的高等教育入门级编程课程的教学实践和指导产生积极影响。
May, 2024
通过对 24 名职业软件工程师使用 ChatGPT 一周期间的对话和整体体验进行定性分析,发现他们更多地使用 ChatGPT 获取解决任务的指导或对抽象主题的学习,并提出了一个理论框架,指导今后关于职业软件工程师使用 LLM 的学术讨论和设计未来经验性研究。
Apr, 2024
我们通过实证分析了 ChatGPT 在无人辅助编程助手方面的潜力,并强调了其相对程序生成、程序修复、代码摘要方面的表现,并对其在常见编程问题上的表现进行了评估,这证明 ChatGPT 有效地处理典型的编程挑战,但我们也发现,综合的描述可能会限制 ChatGPT 的关注点并阻碍其利用其广泛的知识进行问题解决。
Apr, 2023
探索大型语言模型在计算机教育和学习中的潜力,通过分析其对带有程序代码的输入生成的反馈进行研究,以此为目标来帮助学生解决编程任务并识别不同类型的反馈。结果表明,大型语言模型在一些入门编程任务和学生错误方面表现出了合理的性能,但教育者应提供指导,因为其提供的反馈可能对初学者包含误导性信息。
Aug, 2023
研究论文对大型语言模型(LLMs)在系统安全领域中的影响和局限性进行了探讨,发现 ChatGPT 不仅在生成代码方面有出色的能力,还在理解用户提供的自然语言指令、推理程序的控制和数据流、生成复杂数据结构以及反汇编汇编代码等方面展示了强大的能力。研究表明,GPT-4 在大多数安全任务中相较于 GPT-3.5 有显著改进,同时也确定了 ChatGPT 在安全相关任务中的某些限制,例如处理长代码上下文的能力受限。
Dec, 2023
本文对 ChatGPT 的编码能力进行全面评估,重点考察了其在 Python 编程语言和数据结构与算法等基础计算机科学问题上的表现,包括解决问题的能力、代码质量和运行时错误性质,探究了其对训练数据的直接记忆现象,并在各个子主题和难度不等的问题上与人类表现进行对比研究。
Jul, 2023
本文比较了 ChatGPT 在自然语言处理领域中,在机器翻译、文本摘要、问答和语言生成等方面的表现,并使用自由质量(SQ)分数与每个类别中的主要算法进行了比较。通过有效的验证策略,安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。
Mar, 2023