COMET: 使用增量图上下文表示生成提交消息
该论文提出了两个新颖的想法:从生成提交消息转向完成提交消息,并使用之前的提交历史作为额外的上下文,以提高生成提交消息的质量和个性化程度。他们使用自己收集的名为 CommitChronicle 的新数据集来评估这些新想法,并发现在某些情况下,提交消息的完成表现出比生成更好的结果,并且历史信息能够改善 CMG 模型和 GPT-3.5-turbo 在生成和完成任务中的性能。
Aug, 2023
本文介绍了一种名为 Comet 的新型插件方法,可有效降低通信成本并保持竞争性模型性能,通过 GLUE 基准数据集的 Bert 和 RoBERTa 模型评估表明,通信成本降低了最多 3.9 倍,速度提高了 3.5 倍。
May, 2024
本文通过系统深入分析现有模型和数据集,发现不同 BLEU 指标的使用影响了现有方法的评估和理解,大多数现有数据集仅来自 Java 存储库,而其他编程语言的仓库则未得到充分探索,分割策略可以极大地影响现有模型的性能。基于我们的发现,我们进行人类评估并找到最能与人类得分相关的 BLEU 指标,我们还收集了大规模、信息丰富、多语言的提交消息数据集,MCMD,并在此数据集上评估了现有模型。我们还进行了不同数据集分割策略的广泛实验,并提出了适合不同情况的合适模型。基于实验结果和发现,我们提供了全面评估提交消息生成模型并探讨可能的未来研究方向的可行建议。我们相信这项工作可以帮助从业者和研究人员更好地评估和选择自动提交消息生成模型。
Jul, 2021
研究使用神经机器翻译(NMT)模型,使用 345K 的包含代码修改和提交信息的数据集,采用编码器和解码器的方法自动生成提交消息,并使用两种训练方法进一步提高生成提交信息的质量。
May, 2021
本文提出了一种新的提交信息生成模型 ATOM,通过表示代码更改的抽象语法树来集成检索和生成信息,并通过混合排序模块优先考虑一个代码更改的最准确信息,实验结果表明 ATOM 在生成代码提交信息方面显著优于现有模型。
Dec, 2019
本研究介绍了一种名为 xCOMET 的开源学习度量方法,它融合了语句级评估和错误跨度检测能力,并展现出在各种评估类型(语句级、系统级和错误跨度检测)方面的最先进性能,同时突出和分类错误跨度,从而丰富了质量评估。通过稳健性分析和压力测试,我们还表明 xCOMET 在识别局部关键错误和产生幻觉方面有很强的能力。
Oct, 2023
利用扩散学习重建叙事背景和相关常识之间的内在语义联系,我们开发了一系列以 DiffuCOMET 为基础的知识模型,为推断上下文相关和多样性常识提供了一种解决方案。我们的方法逐步优化了与叙事相关的常识事实表示,产生了与输入上下文相关且多样化的常识推论。在 ComFact 和 WebNLG + 两个基准测试上的结果表明,DiffuCOMET 产生的常识在常识多样性、上下文相关性和与已知参考文献的一致性方面的平衡优于基准知识模型。
Feb, 2024
该论文介绍了利用 Neural Machine Translation 技术将 diffs 转化为 commit messages 的方法,并进行了模型训练和评估,同时提出了质量过滤器来保证生成 commit messages 的质量。
Aug, 2017
通过研究发现现有深度学习库测试技术的测试效果受到 API 调用多样性的限制,为了更加有效地生成深度学习模型以实现较高的覆盖率和发现更多的库错误,本文提出了一种基于突变操作符的模型生成算法 COMET,该算法可实现对 API 调用多样性的有效控制并发现了 32 个新的库错误。
Aug, 2022
介绍了 COMET,这是一个使用神经网络的多语言机器翻译评估模型,它利用了跨语言预训练语言建模的最新进展,通过同时使用源输入和目标语言的参考翻译来更准确地预测机器翻译的质量,并在 WMT 2019 指标共享任务中获得了新的最优表现,并展示了对高性能系统的鲁棒性。
Sep, 2020