代码生成的编码器评审重新排名

Nov, 2022

Coder Reviewer Reranking for Code Generation

Tianyi Zhang, Tao Yu, Tatsunori B. Hashimoto, Mike Lewis, Wen-tau Yih...

TL;DR通过添加 Reviewer 模型来限制生成代码的多样性并对生成结果进行评估，从而改善了常见的代码生成算法中对退化方案的倾向，实验结果表明，这种算法实现简单且泛化性强，有望在某些情况下取代最小贝叶斯风险方法。

Abstract

Sampling diverse programs from a code language model and reranking with model likelihood is a popular method for code generation but it is prone to preferring degenerate solutions. Inspired by →

code generation language models collaborative programming reranking bayes risk

发现论文，激发创造

通过集群间建模进行代码生成的神经排序器

该研究介绍了一种名为 SRank 的新型重排序策略，通过量化聚类之间的功能重叠，为代码生成提供了更好的排名策略，实验结果表明，该方法在 pass@1 得分上取得了显著的结果，与现有的排名方法相比，显示出优越性和鲁棒性。

Oct, 2023

源代码评审人员推荐的大规模研究

本文通过在 Github 和 Gerrit 代码仓库中挖掘数据进行大规模实验比较两种主要的代码审查员推荐算法 (RevFinder 和基于朴素贝叶斯的方法) 的性能，以确定最佳的代码审查员。我们发现：1）没有一个模型适用于所有项目；2）不同的代码仓库会对推荐结果产生影响；3）利用 Gerrit 中可用的子项目信息可以改善推荐结果。

Jun, 2018

故障感知神经代码排序器

该论文提出了一个名为 CodeRanker 的神经排序模型，可以预测采样生成程序的正确性和执行信息，从而提高各种代码生成模型的正确性。

Jun, 2022

PairReranker: 自然语言生成的配对重排序

通过对三种自然语言生成任务的实证分析，提出了一种新的 NLG 后处理方法 PairReranker，并证明其能够显著提高性能及适用于 GPT-3。

Dec, 2022

PanGu-Coder2: 通过排名反馈提升代码的大规模语言模型

通过 RRTF (Rank Responses to align Test&Teacher Feedback) 框架，我们提出了 PanGu-Coder2，它在 OpenAI HumanEval 基准测试中实现了 62.20% 的 pass@1，并通过对 CoderEval 和 LeetCode 基准测试的广泛评估显示，PanGu-Coder2 始终优于所有之前的 Code LLMs。

Jul, 2023

LEVER: 学习使用执行验证从语言生成代码

本研究提出了一种基于语言到代码生成的方法，利用预先训练好的代码语言模型的采样程序生成，再利用后验验证器对生成的程序进行验证，对程序进行重新排序，从而提高最终程序的正确性，实验结果表明该方法在多个领域取得了最优的生成效果。

Feb, 2023

利用大规模预训练技术自动化代码审查活动

该研究提出利用预训练技术来自动化代码审查，使用 4 项专门为代码审查场景定制的预训练任务，建立了包含 9 种流行编程语言的大规模真实世界代码变更和代码审查数据集，并创建了基于这些数据的高质量基准数据集，针对与代码审查活动相关的 3 个关键任务进行评估，实验结果显示，该模型在所有任务中优于先前的最先进的预训练方法。

Mar, 2022

具备编译器反馈的可编译神经代码生成

本文提出了一种名为 COMPCODER 的三阶段编译反馈机制，采用编译器反馈来生成可编译的代码，实验结果显示该方法的成功编译率从 44.18％提升至 89.18％。

Mar, 2022

JumpCoder: 在线修改加码器超越自回归编码器

将新代码插入当前生成的代码中，并通过辅助的填充模型和生成模型评分判断填充位置的有效性，以提升代码生成模型的性能。

Jan, 2024

SummaReranker：一个多任务专家混合再排序框架用于抽象摘要

该研究使用深度学习模型进行文本自动摘要，通过重新排序生成的摘要，显著提高了 ROUGE 1 得分。

Mar, 2022