在软件需求规格中使用 LLMs 的实证评估
论文研究了大型语言模型(LLMs)在学术软件工程项目中的实用性,包括 AI 生成的代码、代码生成的提示以及将代码集成到代码库中的人工干预水平。研究结果表明,LLMs 在软件开发的早期阶段,特别是在生成基础代码结构和语法、错误调试方面,可以发挥重要作用。这些发现为我们提供了一个有效利用 LLMs 提高软件工程学生的生产力的框架,并强调了将教育重点转向为学生成功进行人工智能协作的必要性。
Jan, 2024
ChatGPT 能够从自然语言需求中生成 UML 序列图,但生成的模型在完整性和正确性方面存在挑战,尤其在需求不明确和不一致的情况下。此研究对要求工程领域中的大型语言模型的实际应用和有效的模型生成提示策略具有重要影响。
Apr, 2024
通过系统文献综述,我们深入研究了大型语言模型(LLMs)与软件工程(SE)的交叉领域,并特别关注 LLMs 在 SE 中的应用、影响和潜在局限。通过收集和分析 2017 年至 2023 年的 229 篇研究论文,我们回答了四个关键研究问题(RQs),比较分析了不同用于 SE 任务的 LLMs 的特点和用途,并详细描述了在此领域中数据收集、预处理和应用的方法,揭示了稳健、经过良好策划的数据集对于成功实施 LLM 的关键作用。同时,我们还调查了优化和评估 LLMs 在 SE 中性能的策略,以及与提示优化相关的常见技术。通过解决上述研究问题,我们勾勒出当前最先进的研究状况,找出现有研究的不足之处,并标注未来研究的有前景的领域。
Aug, 2023
利用大型语言模型 (LLMs) 将自然语言描述转换为形式化规范的能力进行了评估,提出了一种使用两个 LLMs 与现成验证程序结合的方法来自动评估其翻译能力,结果显示目前最先进的 LLMs 无法充分解决这个任务,限制了它们在复杂系统设计中的实用性。
Mar, 2024
本研究旨在考察大型语言模型(如 GPT-4)在新数据上执行经验软件工程研究的复制能力,发现 GPT-4 能够提供正确的假设,但难以生成反映软件工程数据的常规知识的假设,同时在生成的代码中存在实现层面错误,显示出对软件工程知识的欠缺。这些发现对于利用 LLMs 进行软件工程研究以及软件团队中的数据科学家具有重要意义。
Oct, 2023
基于大规模语言模型的代码生成领域的综述,介绍了对 LLMs 在代码生成领域的最新进展、数据处理、性能评估、实际应用,对学术与实践之间的差距进行了分析,提出了关键挑战和机遇,并提供了一个资源网站以记录和传播该领域的最新进展。
Jun, 2024
提出 LLM4PLC 的用户引导迭代流程,通过用户反馈和外部验证工具来改善大型语言模型(LLM)生成的代码的可验证性,提高成功生成的比例并提高代码质量。
Jan, 2024
该研究报告关注大型语言模型在科学研究中的应用,调查了使用 LLM 工具的若干实际案例,特别是与软件工程相关的用例,结果显示了大型语言模型工具的潜力和问题。
Nov, 2023
使用各种大型语言模型自动生成代码片段的自然语言摘要,研究结果表明,代码语言模型优于其通用模型,而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。
Oct, 2023