探索大型语言模型在工业测试维护过程中的整合

Sep, 2024

探索大型语言模型在工业测试维护过程中的整合

Exploring the Integration of Large Language Models in Industrial Test Maintenance Processes

Ludvig Lemner, Linnea Wahlgren, Gregory Gay, Nasser Mohammadiha, Jingxiong Liu...

TL;DR本研究解决了软件测试过程中的维护成本和努力问题，提出了利用大型语言模型（LLMs）进行测试维护的创新方法。研究表明，通过多智能体架构，可以预测哪些测试用例在源代码更改后需要维护，从而显著提高测试维护的效率和质量。

Abstract

Much of the cost and effort required during the Software Testing process is invested in performing Test Maintenance - the addition, removal, or modification of test cases to keep the test suite in sync with the s

发现论文，激发创造

面向软件工程的大型语言模型：一项系统性文献综述

通过系统文献综述，我们深入研究了大型语言模型（LLMs）与软件工程（SE）的交叉领域，并特别关注LLMs在SE中的应用、影响和潜在局限。通过收集和分析2017年至2023年的229篇研究论文，我们回答了四个关键研究问题（RQs），比较分析了不同用于SE任务的LLMs的特点和用途，并详细描述了在此领域中数据收集、预处理和应用的方法，揭示了稳健、经过良好策划的数据集对于成功实施LLM的关键作用。同时，我们还调查了优化和评估LLMs在SE中性能的策略，以及与提示优化相关的常见技术。通过解决上述研究问题，我们勾勒出当前最先进的研究状况，找出现有研究的不足之处，并标注未来研究的有前景的领域。

Aug, 2023

使用大型语言模型构建测试用例的案例研究：揭示实践洞见与挑战

本文通过详细的案例研究，探讨了在软件工程背景下，应用大型语言模型（LLMs）构建测试用例的方法。通过定性和定量分析，评估了LLMs对测试用例全面性、准确性和效率的影响，并讨论了模型可解释性、伦理考虑和适应不同软件环境的挑战。本研究的结果为软件测试领域中应用LLMs提供了实用性见解，旨在促进对LLMs在优化软件开发过程中作用的全面理解。

Dec, 2023

软件渗透测试中使用大型语言模型的初步研究

利用大型语言模型（LLM）构建用于软件渗透测试的人工智能代理，通过反复使用和提示工程来提高模型性能。

Jan, 2024

产业视角下的LLMs: 挑战与前景解析 - 一项概述调研

本文旨在探讨大型语言模型（LLMs）在工业环境中的障碍和机遇，并基于一组行业从业者的调查和68篇行业论文的研究，提出四个研究问题以得出有意义的结论。

Feb, 2024

大型语言模型作为测试用例生成器：性能评估与增强

使用大型语言模型（LLMs）生成高质量的测试用例是一个重要问题，目前的研究主要集中在改进代码生成过程中通过LLMs生成辅助测试用例的性能，而LLMs在仅生成测试用例方面的性能尚未全面研究。为了填补这一空白，本文通过大量实验研究了LLMs生成高质量测试用例的能力，并提出了一种名为TestChain的多代理框架，通过与Python解释器的交互提供更准确的测试输出，实验结果表明TestChain在测试用例准确性上明显优于基准模型，其中使用GPT-4作为基础的TestChain在LeetCode-hard数据集上相比基准模型改进了13.84%。

Apr, 2024

大语言模型的工具学习：综述

最近，利用大型语言模型（LLMs）进行工具学习已经成为增强LLMs能力以解决高度复杂问题的一种有前景的范式。尽管这一领域受到越来越多关注和快速发展，但现有文献仍然零散且缺乏系统组织，对于新手来说存在进入障碍。本文通过对现有关于LLMs工具学习的文献进行综述，旨在探讨为什么工具学习有益以及如何实现工具学习，从而全面了解LLMs工具学习。首先，我们通过从六个具体方面回顾工具整合的益处以及工具学习范式的内在益处来探讨“为什么”。在“如何”方面，我们根据工具学习工作流程的四个关键阶段（任务规划、工具选择、工具调用和响应生成）系统综述了现有文献。此外，我们还详细总结了现有的基准和评估方法，并根据其与不同阶段的相关性进行分类。最后，我们讨论了当前的挑战，并概述了潜在的未来方向，旨在鼓励研究人员和工业开发者进一步探索这一新兴而有前景的领域。

May, 2024

利用大型语言模型自动化生成补丁集合从代码审查评论中

评估预训练的大型语言模型（LLMs）在复制开发人员在代码审查评论中传统执行的任务方面的效果，通过比较它们生成的修补程序集与相同代码库的人工生成的修补程序集的历史数据，来确定LLMs的反馈的准确性、相关性和深度，从而评估它们支持开发人员应对代码审查评论的准备程度。

Apr, 2024

在游戏开发中利用大型语言模型进行高效的故障分析

这篇论文提出了一种利用大型语言模型（LLMs）自动识别导致测试失败的代码更改的新方法，并通过定量和定性评估验证了该方法的有效性。通过EA开发者报告的问题进行的数据集评估结果显示，我们的方法在准确率上达到了71％。此外，通过用户研究对我们的模型进行了评估，结果显示在开发者的视角下使用该工具可以显著减少问题调查所需的时间，最高可达60％。

Jun, 2024

大型语言模型作为软件组件：LLM集成应用的分类方法

大型语言模型与应用集成研究的分类体系和LLM组件的描述，以及它们在软件系统建设方面的潜力。

Jun, 2024

从大型语言模型到基于大型语言模型的软件工程代理：当前挑战和未来展望的综述

本研究解决了大型语言模型（LLMs）与基于LLMs的代理之间的区别不明确的问题。通过对软件工程中LLMs和LLM-based代理的应用进行广泛调查，论文总结了六个关键主题，并对它们的效果和应用进行了全面分析。研究结果为推动软件工程中基于LLMs的代理的未来研究提供了重要思路。

Aug, 2024