基于两阶段生成模型的电信软件系统测试代码生成

MMApr, 2024

基于两阶段生成模型的电信软件系统测试代码生成

Test Code Generation for Telecom Software Systems using Two-Stage Generative Model

Mohamad Nabeel, Doumitrou Daniil Nimara, Tahar Zanouda

TL;DR提出了一种自动化测试生成的框架，利用历史电信网络数据训练时间序列生成模型来生成测试案例输入数据，并结合自然语言编写的测试描述生成测试脚本，从而有效地生成全面的测试案例数据输入和有用的测试代码。

Abstract

In recent years, the evolution of Telecom towards achieving intelligent, autonomous, and open networks has led to an increasingly complex Telecom Software system, supporting various heterogeneous deployment scenarios, with multi-standard and multi-vendor support. As a result, it becomes a challenge for →

telecom software automated test generation large-scale test case input data generative model

发现论文，激发创造

从 BDD 测试用例规范生成代码：愿景

使用基于机器学习和人工智能的方法来生成 Angular 框架的前端组件代码，重点关注自动化代码生成、开发效率提升、软件质量提高等研究问题。

May, 2023

通过大型语言模型了解电信语言

本文介绍了如何使用 Fine-tune 调整预训练语言模型，例如 BERT、RoBERTa 和 GPT-2，来识别电信领域的文档中的工作组标准，其准确率可达 84.6%。

Jun, 2023

移动网络中的故障检测与扩散模型

本文介绍了一种利用生成 AI 模型检测电信网络异常的系统，通过扩散模型对多元时间序列数据进行训练，提出了用于电信网络时间序列异常检测的框架和优于其他技术的扩散模型架构，并通过对真实数据集的实验验证模型提供了可解释的结果，揭示了其局限性并提出了未来研究方向以进一步增强其能力。

Apr, 2024

生成 AI 用于生成测试数据生成器

通过生成 AI，我们评估了不同领域测试数据生成任务的三种水平上大型语言模型（LLMs）的能力，结果表明 LLMs 可以成功地在各种领域和三个集成性水平上生成逼真的测试数据生成器。

Jan, 2024

利用大型语言模型进行计算机科学教育中学生代码引导的测试用例生成

我们提出了一种基于大型语言模型的自动测试用例生成方法，证明它们是衡量学生知识的良好指标，使用了一个包含学生编写的 Java 代码的公开数据集，并讨论了以测试用例帮助学生为中心的未来研究方向。

Feb, 2024

使用代码模型和领域适应生成自动化测试用例

使用 Transformer-based 代码模型，提出完全自动化的测试框架，能够生成可编译和可读的单元测试，可以补充搜索 - based 测试生成的测试，并且能够覆盖开发人员编写测试中未覆盖的代码行。

Aug, 2023

软件生成数据中的偏见和误差缓解：利用生成代码模型的高级搜索和优化框架

提出了一种先进的搜索和优化框架，基于大型语言模型生成高质量代码，用于解决数据分析和生成软件系统中的错误和偏差问题，并使用 Solomonoff 归纳作为理论基础，通过扩展 Kolmogorov 条件复杂性来评估候选程序集。

Oct, 2023

利用大型语言模型理解电信标准

通过评估最新的大型语言模型作为第三代合作伙伴计划（3GPP）文件参考的问答助手的能力，本文提供了性能评估的基准和测量方法，进行了数据预处理和微调，提供了适用于所有语言模型的增加响应准确性的指南，并提供了一种名为 TeleRoBERTa 的模型，其性能与基础语言模型相当，但参数数量少一个数量级。结果表明，大型语言模型可以作为电信技术文件的可靠参考工具，因此在故障排除、维护、网络运营和软件产品开发等多个领域具有潜力。

Apr, 2024

代理代码是最先进的软件测试员

使用大型语言模型的代码代理在形式化用户问题为测试用例方面具有重要能力，并且在生成相关测试用例方面表现出众，尤其是在代码修复方面，生成的测试用例是提出代码修复的一个有效过滤器。

Jun, 2024

大型语言模型作为测试用例生成器：性能评估与增强

使用大型语言模型（LLMs）生成高质量的测试用例是一个重要问题，目前的研究主要集中在改进代码生成过程中通过 LLMs 生成辅助测试用例的性能，而 LLMs 在仅生成测试用例方面的性能尚未全面研究。为了填补这一空白，本文通过大量实验研究了 LLMs 生成高质量测试用例的能力，并提出了一种名为 TestChain 的多代理框架，通过与 Python 解释器的交互提供更准确的测试输出，实验结果表明 TestChain 在测试用例准确性上明显优于基准模型，其中使用 GPT-4 作为基础的 TestChain 在 LeetCode-hard 数据集上相比基准模型改进了 13.84%。

Apr, 2024