PLUM: 偏好学习加测试用例产生更好的代码语言模型

Jun, 2024

PLUM: 偏好学习加测试用例产生更好的代码语言模型

PLUM: Preference Learning Plus Test Cases Yields Better Code Language Models

Dylan Zhang, Shizhe Diao, Xueyan Zou, Hao Peng

TL;DRPLUM 是一个增加了针对代码 LM 的测试用例的偏好学习框架，它通过三个阶段的实验表明，PLUM 显著提高了现有代码 LM 在代码生成任务中的性能，并与监督微调阶段相互协作产生协同效应。

Abstract

instruction-finetuned code language models (LMs) have shown promise in various programming tasks. They are trained, using a language modeling objective, on natural language instructions and gold code snippet pairs. Recent evidence suggests that these models, never exposed to incorrect

instruction-finetuned code language models preference learning test cases code generation supervised fine-tuning

发现论文，激发创造

通过自我改进获得更好的代码语言模型

该研究提出了一个简单的数据增强框架，利用预训练和微调阶段获得的知识来生成伪数据，以进一步提高 PLMC 的性能，在 CodeXGLUE 基准测试中的代码摘要和代码生成等方面取得了显著的改进。

Apr, 2023

一种基于偏好的增强翻译的范式与大型语言模型

通过基于 Plackett-Luce 模型的基于偏好的方法，成功突破了以模仿为基础的 SFT 的平台效应，从而实现了在各种 LLM 和测试环境中的性能优势。

Apr, 2024

将医师诊断逻辑纳入大型语言模型：从过程反馈中进行偏好学习

采用偏好学习的过程反馈（PLPF）方法，将医生的诊断逻辑整合到大型语言模型中，提高医疗对话生成的准确性和连贯性。实验结果表明，PLPF 方法在医学对话中通过 17.6％的基线模型提高了诊断准确率，并且在多轮和单轮对话任务中均表现出有效性。

Jan, 2024

解剖人类和 LLM 偏好

通过对人类和重要语言模型的偏好进行细致分析，研究发现人类对错误不太敏感，倾向于支持他们的观点的回答，并且当模型承认其局限性时显示出明显的不喜欢。相反地，高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外，相似大小的语言模型往往表现出类似的偏好，无论它们的训练方法如何，并且对于仅预训练的语言模型来说，通过对齐进行微调并不显著改变其偏好。最后，研究发现基于偏好的评估可以被有意地操纵，将模型与评委的偏好保持一致将提高评分，而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化，例如在 MT-Bench 上高达 0.59 分（1-10 分制），在 AlpacaEval 2.0 上高达 31.94 分（0-100 分制），突显了这种战略性调整的重要影响。

Feb, 2024

大型语言模型人类偏好学习综述

本综述从以偏好为中心的角度回顾了探索大型语言模型（LLMs）的人类偏好学习的进展，包括偏好反馈的来源和格式，偏好信号的建模和使用，以及对齐 LLMs 的评估。

Jun, 2024

ElitePLM：预训练语言模型通用语言能力评估的实证研究

本文介绍了一个对预训练语言模型（PLMs）的普适语言能力进行大规模实证研究的 ElitePLM，并设计了四个评估维度来衡量十种广泛使用的 PLMs，包括记忆、理解、推理和组合。实验结果表明，PLMs 在不同的能力测试中表现出色；下游任务中的微调通常对数据大小和分布敏感；PLMs 在类似任务之间具有出色的可转移性，并且 PLMs 的预测结果在我们的实验中作为开放资源发布，以进行更深入和详细的 PLMs 语言能力分析。这篇论文可以引导未来的工作选择，应用和设计特定任务的 PLMs。

May, 2022

用于对齐语言模型的组合偏好模型

我们提出了一种新的偏好模型框架，即组合偏好模型（CPMs），它可以将一个全局偏好评估分解为多个可解释的特征，从提示的语言模型中获得这些特征的标量分数，并使用逻辑回归分类器聚合这些分数，实验证明，CPMs 不仅提高了泛化性能，并且对过度最优化更加稳健，而且使用 CPMs 获得的最佳样本往往优于传统偏好模型所获得的样本。

Oct, 2023

预训练语言模型在低资源编程语言中的可转移性

研究表明，在多语言数据集中使用语料库来微调预训练的多语言自然语言处理模型 (PLMs) 能够获得更高的性能，但是没有对单语言 PLMs 进行分析。此外，不同的编程语言之间的代码通常不能互换，我们调查了单语言和多语言 PLMs 对不同编程语言的影响，分析了超过一百个预训练模型和微调模型，结果表明，多语言 PLMs 具有更低的性能 - 时间比 (在微调期间的 BLEU，METEOR 或 MRR 分数)，我们提出的目标编程语言选择策略能够在减少微调时间的同时在代码摘要和代码搜索任务中实现更高的性能，并且我们的策略在不同代码长度上表现良好。

Apr, 2022

关于在代码的预训练语言模型中使用连续学习以实现针对分布外的泛化

本文提出可解决 Pre-trained language models 在软件代码动态环境下 catastrophic forgetting 问题的五种 continual learning methods，并在两个 downstream tasks 中取得可比较或优越的表现。

May, 2023

使用人类偏好进行语言模型预训练

通过在预训练中引入人类的反馈，实现对于语言模型的生成文本的可控和可导向性，减少哪些偏离人类喜好的内容的生成，并且在标准的预训练和任务特定的微调中保持下游任务表现。推荐在训练开始时，就结合人类反馈，不再使用模仿学习的方式预训练语言模型。

Feb, 2023