深度学习与软件工程：源代码预训练模型调查

IJCAIMay, 2022

深度学习与软件工程：源代码预训练模型调查

Deep Learning Meets Software Engineering: A Survey on Pre-Trained Models of Source Code

Changan Niu, Chuanyi Li, Bin Luo, Vincent Ng

TL;DR介绍了深度学习在软件工程中的应用，着重讨论了源代码的预训练模型，并展望了未来的研究方向。

Abstract

Recent years have seen the successful application of deep learning to software engineering (SE). In particular, the development and use of pre-tr

deep learning software engineering pre-trained models source code future research directions

发现论文，激发创造

结构化代码理解的深度学习模型综述

本综述介绍了编码数据的结构的两种模型，即基于序列和基于图形的模型的概述和比较，并介绍了度量、数据集和下游任务等相关知识。最后，我们对结构代码理解领域的未来研究提出了一些建议。

May, 2022

软件工程中机器学习的系统文献综述

应用机器学习技术研究软件工程领域的现状，特别关注软件质量保证、软件维护、软件理解和软件文档等方面。

Jun, 2024

探测源代码的预训练模型

本研究探讨了预训练模型在代码处理中的广泛应用及其对识别语法结构、正确性、标识符、数据流和命名空间等方面的影响，并测试了使用给定目标进行预训练、模型大小变化以及微调的影响。

Feb, 2022

针对神经代码智能的预训练语言模型综述

介绍了 “神经代码智能”（NCI）领域的基本情况，包括预训练技术、任务、数据集和模型结构；探讨了如何使用深度学习技术提高软件工程效率、减少人为错误，并为领域内未来研究提供启示。

Dec, 2022

深度学习与软件工程：研究现状与未来发展方向

该研究报告总结了深度学习和软件工程交叉研究的高优先级领域，并提出了潜在的路径图以指导未来的工作。

Sep, 2020

用于 GitHub 存储库中的深度学习应用的软件工程：使用 SWEng 和 MLops 工具

深度学习软件工程 (SE4DL) 是在深度学习软件上应用软件工程 (SE) 实践的一个新领域，本研究调查了在应用 DL 项目中采用的常规 SE 工具和 MLOps 工具的使用情况，并发现常规 SE 工具的使用比 MLOps 工具更为普遍，进一步的研究推荐关注开源项目对 MLOps 工具的采用情况以及如何促进已有工具的使用。

Oct, 2023

循着最佳实践指引的机器学习

本文旨在通过分析机器学习在软件工程中的最佳实践，填补现有文献不足的空缺，并针对机器学习应用所面临的挑战和开发过程，提出一系列以软件工程视角为基础的建议。

Apr, 2023

预训练代码模型了解哪些代码知识？

本研究探索预训练模型在软件工程任务中的应用，通过四项探测任务评估模型对代码特征信息的理解程度，发现不同预训练模型表现有差异，其中 BERT 表现出乎意料的优异，但还需要深入研究。

Aug, 2021

CodeTrans: 通过自监督深度学习和高性能计算破译硅谷代码语言

本研究使用 CodeTrans—— 一种编码器 - 解码器 transformer 模型，在六个软件工程任务中探究了 encoder-decoder transformer 模型的有效性，并调查了各种训练策略的影响，包括单任务学习、迁移学习、多任务学习和多任务学习与微调。结果表明，CodeTrans 在所有任务上均优于现有模型。该研究为软件工程领域的未来工作提供了有力的支持，并公开了预训练模型。

Apr, 2021

源代码分析的机器学习技术调查

本文旨在总结如何应用机器学习技术进行源代码分析的最新研究动态，并回顾 12 类软件工程任务及相应的机器学习技术、工具和数据集。在文献调研的基础上，文章总结了研究观察和发现，并总结了每个任务的通用步骤、机器学习技术和可用数据集和工具，并讨论了这一领域面临的各种挑战。

Oct, 2021