Jul, 2021

评估提交消息生成模型:一项实验研究

TL;DR本文通过系统深入分析现有模型和数据集,发现不同 BLEU 指标的使用影响了现有方法的评估和理解,大多数现有数据集仅来自 Java 存储库,而其他编程语言的仓库则未得到充分探索,分割策略可以极大地影响现有模型的性能。基于我们的发现,我们进行人类评估并找到最能与人类得分相关的 BLEU 指标,我们还收集了大规模、信息丰富、多语言的提交消息数据集,MCMD,并在此数据集上评估了现有模型。我们还进行了不同数据集分割策略的广泛实验,并提出了适合不同情况的合适模型。基于实验结果和发现,我们提供了全面评估提交消息生成模型并探讨可能的未来研究方向的可行建议。我们相信这项工作可以帮助从业者和研究人员更好地评估和选择自动提交消息生成模型。