基于机器学习的全功能提交消息质量检查器
本文通过系统深入分析现有模型和数据集,发现不同 BLEU 指标的使用影响了现有方法的评估和理解,大多数现有数据集仅来自 Java 存储库,而其他编程语言的仓库则未得到充分探索,分割策略可以极大地影响现有模型的性能。基于我们的发现,我们进行人类评估并找到最能与人类得分相关的 BLEU 指标,我们还收集了大规模、信息丰富、多语言的提交消息数据集,MCMD,并在此数据集上评估了现有模型。我们还进行了不同数据集分割策略的广泛实验,并提出了适合不同情况的合适模型。基于实验结果和发现,我们提供了全面评估提交消息生成模型并探讨可能的未来研究方向的可行建议。我们相信这项工作可以帮助从业者和研究人员更好地评估和选择自动提交消息生成模型。
Jul, 2021
该论文提出了两个新颖的想法:从生成提交消息转向完成提交消息,并使用之前的提交历史作为额外的上下文,以提高生成提交消息的质量和个性化程度。他们使用自己收集的名为 CommitChronicle 的新数据集来评估这些新想法,并发现在某些情况下,提交消息的完成表现出比生成更好的结果,并且历史信息能够改善 CMG 模型和 GPT-3.5-turbo 在生成和完成任务中的性能。
Aug, 2023
该论文介绍了利用 Neural Machine Translation 技术将 diffs 转化为 commit messages 的方法,并进行了模型训练和评估,同时提出了质量过滤器来保证生成 commit messages 的质量。
Aug, 2017
通过创建高质量数据集和目标性评估来自动化编写提交消息,从而节省软件开发人员的时间;本研究提供了一个新的大型数据集 CommitBench,采用了最佳实践方法,用于生成提交消息,并使用该数据集比较不同的模型,展示了基于源代码预训练的 Transformer 模型的优越性能。
Mar, 2024
研究使用神经机器翻译(NMT)模型,使用 345K 的包含代码修改和提交信息的数据集,采用编码器和解码器的方法自动生成提交消息,并使用两种训练方法进一步提高生成提交信息的质量。
May, 2021
通过对自动度量、机器翻译聊天等领域进行元评估,我们发现引用自由度量相较于引用依赖度量滞后,尤其在评估英文以外的翻译质量时。我们研究了如何将对话上下文信息融入度量中,并发现将上下文信息与神经学习度量相结合有助于提高自由度量在无参考情景下与人类判断的相关性,以及在评估英文以外的翻译时的性能。最后,我们提出了一种新的评估度量方法 Context-MQM,并验证了添加上下文即使对基于大型语言模型(LLM)的评估度量也是有帮助的。
Mar, 2024
研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法,并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果不同,人工翻译的结果被明显偏爱,但自动评估指标基于预训练嵌入的表现也足以胜过人工众包评估,为今后的研究提供公共语料库。
Apr, 2021
本研究提出了一种基于 LLM 的方法,受到人类主题评估的启发,实现了语境化主题连贯性(CTC)度量,其在自动化主题连贯性方法方面表现出色,可应用于短文本,并不容易受到高分却无意义的主题干扰。
May, 2023
使用基于图的表示和基于 Transformer 模型的方法,通过捕捉代码更改的上下文来生成高质量的 Commit 消息。通过实验证明,Comet 在 BLEU-NORM 和 METEOR 指标上优于现有技术,并与 GPT 模型相比具有竞争力的结果。
Feb, 2024