- 改革软件开发:评估 GitHub Copilot 在现实项目中的效率和挑战
Generative AI technologies promise to transform the product development lifecycle, and this study evaluates the efficien - 跨团队合作的多智能体软件开发
通过引入跨团队合作(CTC)框架,实现协同的团队制定各种决策并在跨团队合作环境中进行沟通,从而提高软件开发中的质量,展示了多智能体合作的潜力和广泛适应性。
- VersiCode: 面向可版本控制代码生成功能
本研究通过引入 VersiCode 数据集和两个专门的评估任务 (VSCC 和 VACE),对大型语言模型在生成特定库版本可验证代码方面的能力进行综合实验和性能评估,揭示了即使是最先进的大型语言模型在生成版本正确代码方面也存在困难,为进一步 - 从人对人对话到人对机器对话的软件工程
现代软件开发中人工智能聊天机器人与人类之间的对话方式及其对协同工作的影响的研究分析了对话特性、交流样式上的相似与差异,指导开发人员如何塑造期望,以促进软件团队的沟通,结论是尽管 LLM 聊天机器人能提高生产力并减轻开发人员的心理负担,但无法 - 花岗岩代码模型:一系列针对代码智能的开放基础模型
为了发挥代码 LLMs 的全部潜力,我们引入了一系列解码器专用的 Granite 代码模型,用于代码生成任务,该模型在多项任务中表现出了最新的性能,为企业软件开发工作流程进行优化。
- 代码大型语言模型中的木马:通过基于触发器的分类方法进行关键回顾
大型语言模型在软件开发中提供了许多令人兴奋的新功能,然而,这些模型的不透明性使得它们难以理解和检查,其不透明性带来了潜在的安全风险,因为对手可以训练和部署被损害的模型来干扰受害组织的软件开发过程,本研究总结了当前大型代码语言模型中特洛伊木马 - 一种建模机器学习工程过程的框架
为解决机器学习软件开发复杂性和多学科团队间的沟通问题,本文介绍了基于领域专用语言的机器学习软件开发流程模型框架,该框架通过标准化任务编排、促进沟通、培养协作环境等方式减轻挑战。
- 软件测试中的测试用例优先级模糊推理系统
该论文介绍了一种基于模糊逻辑的新型方法,利用模糊语言变量和专家定义的模糊规则,通过建立测试用例特征和其优先级之间的关联,自动化测试用例优先级排序(TCP),以提高测试效率。实验验证结果表明,该方法能够有效地对测试用例进行排序,优化测试用例优 - 使用基于代理的建模和仿真研究区块链系统
开发一个模拟框架软件,使用现代工程方法(如模块化,测试,持续开发和持续集成,自动化构建管理,依赖性和文档管理)和敏捷原则,以进行工业案例的快速原型设计和逼真的可行性分析(即通过模拟涉及大量参与者的复杂实验来测试假设,在一个或多个区块链系统中 - 在基础模型时代重新思考软件工程:从任务驱动的 AI 副驾驶到目标驱动的 AI 两人编程
我们提出了一种从基于任务的人工智能辅助软件工程向以目标驱动的 AI 搭档为特征的 AI 变革软件工程的新范式,旨在通过人工智能与人类开发者之间的协作伙伴关系,提高生产力和软件质量。
- 软件开发中的动机大规模调查及其有效性分析
通过调查问卷和预测分析,本研究确定了 11 个激励因素,并分析了它们对开发者动机的相对影响以及答案的有效性问题。尽管存在一些有效性问题,但对多样化激励因素对高动机概率的影响进行的预测分析提供了有价值的见解。
- AI 支持 DevSecOps:现状与未来机遇
本文分析了 99 篇研究论文,从 2017 年到 2023 年,致力于 AI 和 DevSecOps 交叉领域,提出了应用于 DevOps 的 AI 驱动安全技术的综合研究现状,以及提高软件开发流程中的安全性、可靠性和效率的研究机会。
- 大型语言模型生成程序代码的系统评估
GPT-4 在生成编程代码方面表现优异,优于其他大型语言模型,具备在不同编程语言之间翻译和学习的强大能力,同时具备与人类程序员相当的代码生成效率,表明其在编程代码生成和软件开发中具备可靠的助手潜力。
- 自主驾驶车辆:人工智能与学习算法的演进
自动驾驶汽车中人工智能和学习算法的进化轨迹及其在车辆自主决策能力塑造中的基础原则、伦理考虑、偏见和软件开发中的作用、以及不同级别自动化水平下的算法和任务自动化的细致用法的综合探索。
- ChatGPT 是否能够支持开发者?对于代码生成的大型语言模型的实证评估
大型语言模型在代码生成方面展示了显著的熟练度,并通过许多先前的研究在各种开发场景中显示了它们的有希望的能力。然而,这些研究主要在研究环境中进行评估,这在了解 LLMs 在实际开发中如何有效地支持开发人员方面存在重大差距。通过对来自开发人员与 - 岩石编码,而非开发 --LLM 支持的软件工程任务的人为中心的实验评估
通过对 109 名参与者进行一个受控的 2 × 2 交叉试验,我们研究了 ChatGPT 在编码任务和典型软件开发任务中的协助程度以及人们与 ChatGPT 的互动关系,结果显示 ChatGPT 在解决简单编码问题方面表现良好,但在支持典型 - 软件工程项目中对 LLMs 的使用和感知的实证研究
论文研究了大型语言模型(LLMs)在学术软件工程项目中的实用性,包括 AI 生成的代码、代码生成的提示以及将代码集成到代码库中的人工干预水平。研究结果表明,LLMs 在软件开发的早期阶段,特别是在生成基础代码结构和语法、错误调试方面,可以发 - 大型语言模型能否编写并行代码?
本研究提出了一个用于评估最新语言模型在生成并行代码方面能力的基准测试集,以及评估了多个开源和闭源语言模型在此基准测试集上的性能,并引入了用于比较并行代码生成性能的新指标,旨在探讨每个语言模型在不同并行编程模型和计算问题类型上的表现。
- 通过摘要将 API 文档彻底改革
本研究通过利用 Stack Overflow 的大量用户生成内容,包括代码片段和讨论,使用 BERTopic 和抽取式摘要生成简洁且信息丰富的 API 摘要,以解决解释应用程序编程接口 (API) 文档的挑战,这是软件开发的一个重要方面。这 - GEML:基于语法的进化机器学习方法用于设计模式检测
设计模式是软件开发中被认可的良好实践,但是缺乏适当的文档常常使得追溯困难,其益处在庞杂的代码中变得模糊。我们提出了一种基于进化机器学习和多样性软件属性的新颖检测方法 GEML。通过进化算法提取出最能描述设计模式的特征,并建立基于规则的分类器