基于人工智能的Java性能测试：平衡结果质量与测试时间

Aug, 2024

基于人工智能的Java性能测试：平衡结果质量与测试时间

AI-driven Java Performance Testing: Balancing Result Quality with Testing Time

Luca Traini, Federico Di Menna, Vittorio Cortellessa

TL;DR本研究针对Java性能测试中温暖阶段的波动性问题，提出了一种基于AI的动态中止热身迭代框架，通过时间序列分类技术预测热身阶段的结束。实验表明，该框架能显著提高热身估算的准确率，使性能测试的结果质量或测试时间提高至35.3%。

Abstract

Performance testing aims at uncovering efficiency issues of software systems. In order to be both effective and practical, the design of a performance test must achieve a reasonable trade-off between result quality and testing time. This becomes particularly challenging in Java context, where the software undergoes a →

发现论文，激发创造

机器自动化软件性能改进：MAGPIE

研究提出了MAGPIE，一种统一的软件改进框架，可以同时使用编译器优化、算法配置和基因改进等多种提高软件效率的方法，结果显示可同时探索所有技术，提供了使用各个技术的竞争性替代方案。

Aug, 2022

TEP-GNN: 使用图神经网络准确预测功能测试的执行时间

该论文提出了一种基于流量增强的AST和图神经网络模型的高精准度性能预测方法TEP-GNN，其在四个现实情况下的Java开源项目中被证明是可行的，但需要进一步工作来使训练的模型适用于其他未知项目。

Aug, 2022

完美是测试预言的敌人

本文介绍了一种名为SEER的基于学习的方法，用于在没有测试断言或其他类型的测试神谕的情况下，确定单元测试在给定的被测试方法下是否通过或失败，它通过将单元测试和被测试方法的实现联合嵌入到统一的向量空间中来构建基础事实，并通过基于此向量表示建立的分类器作为神谕生成“失败”标签或“通过”标签，本文提出的方法在5K多个开源Java项目的实验中证明了有效性、通用性和高效性。

Feb, 2023

使用机器学习模型并发漏洞

通过对常见和最近的机器学习方法进行比较，将现有的自动检测并发程序中并发错误的工具进行了总结，提出了及其不同类型的机器学习模型对程序的建模时的优缺点，并给出了相应的验证结果。

May, 2023

集成模型在缺陷预测中的功效的可理解性分析

本文介绍了两种基于人工智能的方法，即单个人工智能模型和集成人工智能模型的效果比较和分析，用于预测Java类存在错误的概率。实验结果表明，集成人工智能模型的性能优于单个人工智能模型，同时揭示了提升集成人工智能模型性能的因素，这为提高错误预测结果的可靠性提供了潜力。

Oct, 2023

PACE：连续性性能预测的程序分析框架

PACE是一个程序分析框架，通过映射功能测试用例的执行时间来提供关于挂起代码更新的性能影响的持续反馈，并使用代码风格特征的微基准测试和预测器来实现显著的代码性能预测。

Dec, 2023

UniTSyn：一个可增强大型语言模型在程序测试中能力的大规模数据集

利用大型语言模型（LLMs）生成高质量代码的能力引起了软件测试界的广泛关注。本文介绍了一个大规模数据集UniTSyn，用于提升LLMs在单元测试合成方面的能力。通过与被测试函数相关联的测试，UniTSyn使LLMs能够推断预期行为和待验证的逻辑路径。通过基于UniTSyn构建自回归模型，实验证明在所有评估的编程语言中，学习和理解单元测试表征获得显著的效益，提高了生成准确性和代码覆盖率。

Feb, 2024

使用大型语言模型的自动化单元测试生成系统及生成测试套件的评估

本研究针对现有单元测试生成方法在复杂真实软件开发情境下的局限，提出了一种新的测试生成与评估方案。我们的系统\textsc{AgoneTest}专注于类级测试代码的自动生成，并自动化了从测试生成到评估的全过程。研究显示，该系统能够有效提升测试质量，并为多种 Java 项目生成高效的测试套件。

Aug, 2024

软件测试的未来：基于人工智能的测试用例生成与验证

本研究针对传统测试用例生成与验证方法在时间延长、人工错误、测试覆盖不足及高昂成本等方面的挑战，提出了基于人工智能的解决方案。该方法通过自动化生成全面测试用例和实时适应变化，显著提升回归测试效率，扩展测试覆盖面，并减少人工干预，为软件发布提供更快更可靠的支持。

Sep, 2024

生成性人工智能的N版本评估与增强

本文解决了生成性人工智能在软件工程中面临的信任问题，尤其是在代码生成方面的挑战。通过提出“差异化生成性人工智能”（D-GAI）的方法，利用生成多版本代码和测试的能力，可以实现更可靠的质量评估。研究表明，Large-Scale Software Observatorium（LASSO）平台的应用，将加强对生成性人工智能生成工件的严谨评估，推动软件开发和生成性人工智能研究的进一步发展。

Sep, 2024