CodeFuse-13B:一个预训练的多语言编码大型语言模型
利用对最近的大型语言模型进行了代码测试的详尽分析,本研究展示了这些模型的一系列有趣性质,并展示了如何改进大型语言模型的程序测试能力,通过利用生成的测试用例来提高合成程序的质量,相较于 GPT-3.5-turbo 和最新的最先进技术,我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。
Oct, 2023
LLMs 和基于学习的转译器在自动代码转换任务中取得了显著的性能提升,但当前仍存在一些准确性问题和资源限制。本研究发现,大部分失败源于对源程序的理解不足、在转换中缺少清晰的 I/O 类型指令以及源程序与目标程序之间的差异被忽略。鉴于以上研究结果,我们提出了 UniTrans,一个适用于多种 LLMs 的统一代码转换框架,通过生成测试用例、自动增强转换并验证正确性的执行过程,进一步修复转换错误。在 Python、Java 和 C++ 之间的六个转换数据集上进行了大量实验,三个最近的 LLMs 通过 UniTrans 实现了大幅度的改进。
Apr, 2024
提出了一种名为 CodeT5 + 的编译器 - 解码器语言模型,具有灵活的组件模块和多样化的预训练任务,能够在不同的代码相关基准测试中取得最先进的结果,特别是在针对人类评估的代码生成任务中。
May, 2023
通过知识融合技术将结构和规模不同的源语言模型(LLM)融合为具有相同结构和大小的目标 LLM,从而实现对聊天 LLM 的融合,该方法在聊天领域中的实验结果表明其在多个尺度上优于其他聊天 LLM 模型,并可达到类似于 Mixtral-8x7B-Instruct 的性能水平。
Feb, 2024
本文提出了新的基准测试,包括 MBXP,Multilingual HumanEval 和 MathQA-X,以测试多语言环境下代码生成模型的性能,并发现了多语言模型的优势,以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时,作者还利用其代码生成模型在多种语言上实现了大规模引导过程,产生了其他与代码相关的评估任务中使用的合成规范解决方案。
Oct, 2022
PolyLM 是一个多语言大型语言模型,经过课程学习和自我指导方法的预训练,可以在多种不同语言的多语言理解、问答、生成和翻译任务上获得比其他已有模型更好的表现。
Jul, 2023
使用大语言模型(LLMs),将代码更改从一种编程语言翻译成另一种编程语言,通过设计和实现名为 Codeditor 的第一个 LLM,我们发现它在所有常用的自动指标上都大幅超越了现有的方法,并且与现有的生成模型配合使用可以获得更好的性能。
Jul, 2023
我们提出了一种融合不同领域模型的框架,UltraFuser,通过引入令牌级别的门控机制以及两阶段训练策略,以高效稳定的方式训练模型,并构建了一个具有广泛话题覆盖的高质量训练数据集,UltraChat 2,在文本、代码和数学领域展现出高水平的性能。
Mar, 2024