评估提交消息生成模型：一项实验研究

Jul, 2021

评估提交消息生成模型：一项实验研究

On the Evaluation of Commit Message Generation Models: An Experimental Study

Wei Tao, Yanlin Wang, Ensheng Shi, Lun Du, Shi Han...

TL;DR本文通过系统深入分析现有模型和数据集，发现不同 BLEU 指标的使用影响了现有方法的评估和理解，大多数现有数据集仅来自 Java 存储库，而其他编程语言的仓库则未得到充分探索，分割策略可以极大地影响现有模型的性能。基于我们的发现，我们进行人类评估并找到最能与人类得分相关的 BLEU 指标，我们还收集了大规模、信息丰富、多语言的提交消息数据集，MCMD，并在此数据集上评估了现有模型。我们还进行了不同数据集分割策略的广泛实验，并提出了适合不同情况的合适模型。基于实验结果和发现，我们提供了全面评估提交消息生成模型并探讨可能的未来研究方向的可行建议。我们相信这项工作可以帮助从业者和研究人员更好地评估和选择自动提交消息生成模型。

Abstract

commit messages are natural language descriptions of code changes, which are important for program understanding and maintenance. However, writing commit messages manually is time-consuming and laborious, especially when the code is updated frequently. Various approaches utilizing gene

commit messages natural language processing evaluation metrics dataset splitting automatic generation

发现论文，激发创造

CommitBERT：使用预训练的编程语言模型生成提交信息

研究使用神经机器翻译（NMT）模型，使用 345K 的包含代码修改和提交信息的数据集，采用编码器和解码器的方法自动生成提交消息，并使用两种训练方法进一步提高生成提交信息的质量。

May, 2021

CommitBench：Commit 消息生成的基准测试

通过创建高质量数据集和目标性评估来自动化编写提交消息，从而节省软件开发人员的时间；本研究提供了一个新的大型数据集 CommitBench，采用了最佳实践方法，用于生成提交消息，并使用该数据集比较不同的模型，展示了基于源代码预训练的 Transformer 模型的优越性能。

Mar, 2024

从提交信息生成到具有历史意识的提交信息补全

该论文提出了两个新颖的想法：从生成提交消息转向完成提交消息，并使用之前的提交历史作为额外的上下文，以提高生成提交消息的质量和个性化程度。他们使用自己收集的名为 CommitChronicle 的新数据集来评估这些新想法，并发现在某些情况下，提交消息的完成表现出比生成更好的结果，并且历史信息能够改善 CMG 模型和 GPT-3.5-turbo 在生成和完成任务中的性能。

Aug, 2023

使用神经机器翻译从差异中自动生成提交消息

该论文介绍了利用 Neural Machine Translation 技术将 diffs 转化为 commit messages 的方法，并进行了模型训练和评估，同时提出了质量过滤器来保证生成 commit messages 的质量。

Aug, 2017

基于抽象语法树和混合排名的 ATOM 提交消息生成

本文提出了一种新的提交信息生成模型 ATOM，通过表示代码更改的抽象语法树来集成检索和生成信息，并通过混合排序模块优先考虑一个代码更改的最准确信息，实验结果表明 ATOM 在生成代码提交信息方面显著优于现有模型。

Dec, 2019

自动生成代码提交的简短摘要

该论文研究了提交软件更改至版本控制系统中的信息提交方式，发现自动生成的信息质量差于人工编写的信息。研究揭示了信息通常以动词 + 宾语的方式开始，希望利用这些发现通过训练分类器和生成软件的直接对象来生成简短的提交摘要。

Mar, 2017

COMET: 使用增量图上下文表示生成提交消息

使用基于图的表示和基于 Transformer 模型的方法，通过捕捉代码更改的上下文来生成高质量的 Commit 消息。通过实验证明，Comet 在 BLEU-NORM 和 METEOR 指标上优于现有技术，并与 GPT 模型相比具有竞争力的结果。

Feb, 2024

基于机器学习的全功能提交消息质量检查器

使用机器学习方法，研究了如何衡量提交信息的质量，包括语义和上下文的分析，并开发了一个可以检测提交信息质量的开源框架，以提高软件的可维护性和演化速度。

Sep, 2023

RACE：基于检索增强的提交信息生成

本文提出了一种新的检索增强的神经提交信息生成方法 RACE，利用检索得到的类似提交信息作为样本，并利用它生成准确的提交信息。同时，作者还提出了一个范例导向器，它可以学习检索与当前代码差异的语义相似性，然后根据相似性指导提交消息的生成。实验结果表明，在五种编程语言的大型公共数据集上，RACE 的性能优于所有基线模型，并且可以提高现有的 Seq2Seq 模型在提交消息生成方面的性能。

Mar, 2022

神经代码摘要评估

本文采用系统性和深入分析方法，分析了 5 种最先进的神经代码自动摘要模型在 6 种广泛使用的 BLEU 变量、4 种预处理操作及其组合以及 3 种广泛使用的数据集上的评估结果，发现评估代码摘要模型的三个主要因素 ——BLEU 评估指标、代码预处理选择和数据集特征 —— 对模型的性能和排名有重要影响。文章提出了可行建议来评估代码自动摘要和在不同情景下选择最佳方法，并建立了一个共享代码自动摘要工具箱促进未来研究。

Jul, 2021