CodeUltraFeedback: 一个用于将大型语言模型与编码偏好对齐的LLM作为裁判数据集

Mar, 2024

CodeUltraFeedback: 一个用于将大型语言模型与编码偏好对齐的LLM作为裁判数据集

CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences

Martin Weyssow, Aton Kamanda, Houari Sahraoui

TL;DR通过自动化指标和静态分析工具评估大型语言模型与用户定义的编码偏好之间的对齐是一项具有挑战性的任务。本文介绍了CodeUltraFeedback，这是一个包含10,000个复杂指令的偏好数据集，通过AI反馈调整和对齐语言模型与编码偏好。我们通过14个不同的语言模型对指令生成响应，并使用LLM作为评判器的方法对其对齐性进行了标注。我们还提出了CODAL-Bench，用于评估语言模型与编码偏好对齐的基准。结果表明，通过使用CodeUltraFeedback的AI反馈数据，采用增强学习和直接优化编码偏好的方法，CodeLlama-7B-Instruct在CODAL-Bench上优于34B模型，验证了CodeUltraFeedback在偏好调整方面的实用性。此外，我们还展示了经过优化的CodeLlama模型相比于未对齐的基础模型在HumanEval+上的功能正确性有所改进。因此，我们的贡献弥合了语言模型对编码偏好的调整差距，并为模型对齐和代码智能的进一步发展奠定了基础。

Abstract

Evaluating the alignment of large language models (LLMs) with user-defined coding preferences is a challenging endeavour that requires assessing intricate textual LLMs' outputs. By relying on automated metrics an