InCoder:用于代码填充和合成的生成模型
本研究提出了一个融合自动回归解码的填充操作的通用代码生成框架,利用自我填充的特性实现非单调生成,提高对生成序列的控制,促进循环更新和同步,通过大量实验证明了我们提出的解码过程在提高代码生成质量和规则性方面的有效性。
Nov, 2023
本研究使用大型语言模型(LLMs)和 InstructCoder 数据集,探索用户指令下的代码编辑,涵盖评论插入、代码优化和代码重构等多个隐含任务。实验证明,在 InstructCoder 数据集上对开源 LLMs 进行精细调整,能够大多数情况下正确地编辑代码,展现了前所未有的代码编辑性能水平。
Oct, 2023
本文介绍了 WizardCoder,它利用 Evol-Instruct 方法将复杂的指令微调应用于代码领域,通过对四个主要的代码生成基准进行全面实验,揭示了该模型的出色能力,并超越了所有其他开源 Code LLMs,甚至在 HumanEval 和 HumanEval + 上表现出秀。
Jun, 2023
通过提出 ChainCoder 程序合成语言模型,从粗到细地分多步生成 Python 代码,以此缓解编程思考的困难,该模型能与自然语言描述和语法对齐的 I /O 数据样本同时编码,这一方法已超越现有技术,并生成更高质量的解决方案。
Apr, 2023
本文提出了一种统一的跨模态预训练模型 UniXcoder,使用前缀适配器控制模型行为并使用语法树和代码注释等交叉模态内容来增强代码表示。同时,利用多模态内容进行对比学习以学习代码片段代表,并使用跨模态生成任务在编程语言之间进行表示的对齐。该模型在五个代码相关任务上取得了最先进的结果,而注释和 AST 可以增强该模型。
Mar, 2022
通过利用编译器中间表示来改进代码语言模型的多语言能力,并促进跨语言转换,该研究探讨了在代码语言模型中利用编译器中间表示的可行性和优势,构建了一个并行数据集 SLTrans,并通过对不同规模的代码语言模型进行连续因果语言建模训练,从而在各种代码生成任务和度量标准中实现了显著和一致的提升。
Mar, 2024
Magicoder 是一系列全面开源(代码、权重和数据)的大型语言模型(LLMs),通过使用 OSS-Instruct 来提供更多样化、更真实和可控的数据,从而消除了合成数据的固有偏见,显著缩小了与顶级代码模型的差距。
Dec, 2023
通过引入中间表示形式 UniCode,用大型语言模型 UniCoder 生成编码,显著提高了生成代码的质量并超越了以往的提示方法。
Jun, 2024