代码概括模型学习所得的解析

Mar, 2023

Demystifying What Code Summarization Models Learned

Yu Wang, Ke Wang

TL;DR本文首次给出了代码概括模型所发现的模式的形式化定义，并提出了一种推断正则语言文法的声学算法。 PATIC 对代码 2vec 和代码 2seq 进行了评估并发现提取出的模式受限于局部和语法代码结构并缺乏语义含义。基于这些发现，本文介绍了正式定义模式的两个新方法：评估健壮性和提高代码概括模型的准确性。

Abstract

Study patterns that models have learned has long been a focus of pattern recognition research. Explaining what patterns are discovered from training data, and how patterns are generalized to unseen data are instrumental to understanding and advancing the pattern recognition methods. Unfortunately, the vast majority of the application domains deal with contin

code summarization models formal definition context-free grammar local and syntactic code structures improving accuracy

发现论文，激发创造

如何使用模式编写摘要？通过原型编辑学习走向抽象化摘要

本文提出了基于原型编辑方法的摘要生成器 (PESG) 来解决文本摘要中的两个主要问题：学习样本中的模式以及生成的摘要不包含与模式无关的内容，并通过大规模实验发现其可以在自动度量和人类评估方面取得最先进的性能。

Sep, 2019

基于模式的分类：一种统一的视角

本文讨论模式挖掘在预测模型中的应用，并提供具有解释性和准确性的模式选择方法。

Nov, 2011

学习推理程序草图

本文介绍一种用于程序自动合成的方法，通过结合模式识别和显式推理来解决这些复杂的编程问题，同时使用新颖的中间表示和训练算法，使程序合成系统能够自学，从而在简单的英文描述编程问题数据集上取得了最先进的性能表现。

Feb, 2019

代码之间的区别：揭示机器和人类程序员的独特模式

通过对代码属性进行严格的长度、词汇多样性和自然度的分析，我们揭示了机器生成代码和人工编写代码各自固有的独特特征，特别注意到代码的结构分割是识别其来源的关键因素。基于我们的发现，我们提出了一种名为 DetectCodeGPT 的新型机器生成代码检测方法，通过插入空格和换行符来扰乱代码语料库，确保其有效性和效率。实验结果表明，我们的方法在检测机器生成代码方面明显优于现有技术。

Jan, 2024

EditSum: 源代码摘要的检索和编辑框架

现有研究表明，代码摘要有助于开发人员理解和维护源代码。然而，软件项目中的这些摘要通常缺失或过时。本文提出了一种名为 EditSum 的新型检索编辑方法，用于代码摘要，旨在自动生成源代码的自然语言描述。实验结果表明，EditSum 在预测模式化单词和关键词方面表现出色，而且人工评估也证明了 EditSum 生成的摘要更具信息量和实用性。

Aug, 2023

机器学习在大规模代码和自然语言中的应用调查

本文综述了机器学习、编程语言和软件工程交叉领域的研究进展，重点介绍了利用代码中大量存在的模式提出可学习概率模型的方法，并提出了基于每个模型的基本设计原理的分类法，用于研究该领域的技术、应用等方面的具体问题、挑战和机遇。

Sep, 2017

基于标签描述模式的分类错误特征化方法

通过最小描述长度原则，我们提出了用于全局、可解释无歧义地描述分类器的模式的算法 Premise，可以有效地理解现代 NLP 分类器的系统性错误。

Oct, 2021

时间到模式：面向可扩展时间序列概括的信息论非监督学习

时间序列汇总是从数据集中生成可解释和有代表性子集的过程。我们引入了一种名为 Time-to-Pattern (T2P) 的时间序列汇总方法，通过学习离散时间序列的信息嵌入，在解释性的潜在空间中找到一组多样性模式来编码最显著的信息，并在综合实验中展示了 T2P 相较之前的工作在模式多样性和处理可扩展性方面的显著改进。

Aug, 2023

长短参半：用序列事件摘要串行情节

本文介绍了一种针对序列数据的模式集挖掘方法，使用 MDL 原则编码序列数据，通过权重编码序列中的序列事件集以确定模式质量，通过两种算法进行模式挖掘，证明能够有效发现具有信息量的小模式集。

Feb, 2019

理解代码语义：Transformer 模型在摘要中的评估

这篇论文通过使用先进的基于变压器的语言模型深入研究了代码摘要。通过实证研究，我们改变函数和变量名称来评估代码摘要的效果，以探索模型是否真正理解代码语义或仅依赖于文本线索。我们还引入了死代码和注释代码等对抗性实验，覆盖了 Python、Javascript 和 Java 三种编程语言，进一步审查模型的理解能力。最终，我们的研究旨在提供有关基于变压器的语言模型内部工作方式的有价值见解，增强其理解代码的能力，并为更高效的软件开发实践和维护工作流做出贡献。

Oct, 2023