Mar, 2024

LLaMoCo:大型语言模型的指令调优用于代码生成

TL;DR使用 LLM(大型语言模型)进行优化的最新研究使用迭代地从 LLM 中寻找下一步解决方案或直接提示 LLM 进行优化。然而,这些方法存在固有的局限性,包括低操作效率、对提示设计的高敏感性和缺乏领域特定知识。我们介绍了 LLaMoCo,这是一种第一个被设计为在代码级别上调整 LLM 以解决优化问题的指令调整框架。具体地,我们建立了一个包含明确定义的问题提示和有效优化代码的全面指令集。然后,我们开发了一种新颖的两阶段学习策略,在指令调整阶段之前,通过对比学习为模型的微调过程提供了一个热身过程,以增强其收敛行为。实验证明,通过我们的 LLaMoCo 进行精细调整的 CodeGen(350M)模型在合成和真实问题集上都实现了优于 GPT-4 Turbo 和其他竞争对手的优化性能。精细调整的模型和使用说明可在此 URL 中获得。