代码生成的编码器评审重新排名
该研究介绍了一种名为 SRank 的新型重排序策略,通过量化聚类之间的功能重叠,为代码生成提供了更好的排名策略,实验结果表明,该方法在 pass@1 得分上取得了显著的结果,与现有的排名方法相比,显示出优越性和鲁棒性。
Oct, 2023
本文通过在 Github 和 Gerrit 代码仓库中挖掘数据进行大规模实验比较两种主要的代码审查员推荐算法 (RevFinder 和基于朴素贝叶斯的方法) 的性能,以确定最佳的代码审查员。我们发现:1)没有一个模型适用于所有项目;2)不同的代码仓库会对推荐结果产生影响;3)利用 Gerrit 中可用的子项目信息可以改善推荐结果。
Jun, 2018
通过对三种自然语言生成任务的实证分析,提出了一种新的 NLG 后处理方法 PairReranker,并证明其能够显著提高性能及适用于 GPT-3。
Dec, 2022
通过 RRTF (Rank Responses to align Test&Teacher Feedback) 框架,我们提出了 PanGu-Coder2,它在 OpenAI HumanEval 基准测试中实现了 62.20% 的 pass@1,并通过对 CoderEval 和 LeetCode 基准测试的广泛评估显示,PanGu-Coder2 始终优于所有之前的 Code LLMs。
Jul, 2023
本研究提出了一种基于语言到代码生成的方法,利用预先训练好的代码语言模型的采样程序生成,再利用后验验证器对生成的程序进行验证,对程序进行重新排序,从而提高最终程序的正确性,实验结果表明该方法在多个领域取得了最优的生成效果。
Feb, 2023
该研究提出利用预训练技术来自动化代码审查,使用 4 项专门为代码审查场景定制的预训练任务,建立了包含 9 种流行编程语言的大规模真实世界代码变更和代码审查数据集,并创建了基于这些数据的高质量基准数据集,针对与代码审查活动相关的 3 个关键任务进行评估,实验结果显示,该模型在所有任务中优于先前的最先进的预训练方法。
Mar, 2022
本文提出了一种名为 COMPCODER 的三阶段编译反馈机制,采用编译器反馈来生成可编译的代码,实验结果显示该方法的成功编译率从 44.18%提升至 89.18%。
Mar, 2022