学习深度语义实现测试自动化

Feb, 2023

Learning Deep Semantics for Test Completion

Pengyu Nie, Rahul Banerjee, Junyi Jessy Li, Raymond J. Mooney, Milos Gligoric

TL;DR研究提出了利用深度学习进行文本和代码生成的方法，实现了代码测试中自动完成测试语句的新任务，并使用代码语义数据构建了一个名为TeCo的深度学习模型，成功提高了测试语句准确性，且优于现有模型。

Abstract

Writing tests is a time-consuming yet essential task during software development. We propose to leverage recent advances in deep learning for text and code generation to assist developers in writing tests. We for

发现论文，激发创造

现代IDE中的代码完成的序列模型设计

我们提出了一种结合静态分析和语言模型预测词汇分布的方法，以实现代码完成实时性、准确性及有效性，提高模型的适用性与可用性。

Apr, 2020

快速且高效的神经网络代码补全

本研究旨在解决深度学习模型内存消耗大的问题，通过模块化的神经框架探索多种技术，并设计一种新颖的基于静态分析和细粒度令牌编码相结合的神经重排序模型，其消耗内存仅为6MB，计算单个补全所需仅8ms，最高精度达到90%。

Apr, 2020

使用预训练Transformer生成准确的单元测试断言语句

本文提出了一种基于Transformer模型的方法，通过生成准确和有用的assert语句来支持开发人员编写单元测试用例，经实验证明，该模型在准确性和覆盖率上都具有较大的提升。

Sep, 2020

CoDesc: 一个大型代码-描述平行数据集

本文提出了CoDesc数据集，该数据集包含420万个Java方法和自然语言描述，其有效地提高了24%的代码搜索能力，并实现了代码总结的新的最先进水平。

May, 2021

使用几乎免费的代码生成工具？对预训练语言模型在代码上进行少量学习的研究

本文研究使用预训练的代码语言模型Codex进行few-shot学习的三个代码操作和生成任务，实现手动开发工具所需的更少的工作量，并提供关于如何设计适当输入和影响模型大小的见解，结果表明few-shot语言模型是出乎意料地有效的，但还需要探索更多多样的提示方式来处理更多复杂的任务。

Jun, 2022

通过上下文数据丰富源代码，用于代码完成模型的实证研究

本研究旨在探索是否通过使用上下文数据使代码易于理解会提高预训练代码语言模型完成代码补全任务的性能，并建议在训练、微调或选择此类模型时做出适当的设计选择，以改善自动补全的实用性和准确性。

Apr, 2023

CAT-LM: 训练基于对齐的代码和测试的语言模型

CAT-LM是一个使用27亿参数在Python和Java项目语料库上进行训练的新颖的预训练信号，通过考虑代码和测试文件之间的映射来生成与开发人员相似的测试代码，并且在生成测试完成时比更大的语言模型和最近的测试特定模型表现更好。

Oct, 2023

神经代码补全模型对情况进行尺寸评估：通过动态模型推理实现更便宜和更快的补全

利用动态推理方法优化神经代码补全模型，节约计算资源，减少计算成本，并通过决策机制主动防止生成错误代码。

Jan, 2024

探索模糊测试作为神经测试生成的数据增强

本文介绍了一种将模糊测试和大型语言模型相结合的新型数据增强技术 **FuzzAug**，用于增强神经测试生成数据集，从而提高代码生成模型的准确性和分支覆盖率，增强自动化软件测试的效用。

Jun, 2024

使用大型语言模型的自动化单元测试生成系统及生成测试套件的评估

本研究针对现有单元测试生成方法在复杂真实软件开发情境下的局限，提出了一种新的测试生成与评估方案。我们的系统\textsc{AgoneTest}专注于类级测试代码的自动生成，并自动化了从测试生成到评估的全过程。研究显示，该系统能够有效提升测试质量，并为多种 Java 项目生成高效的测试套件。

Aug, 2024