CodeGemma: Gemma 基于的开源代码模型
Gemma 是一种轻量级的、最先进的开放模型系列,从用于创建 Gemini 模型的研究和技术中构建而来。Gemma 模型在语言理解、推理和安全性等学术基准测试中表现出强大的性能。我们发布了两个规模的模型(20 亿和 70 亿参数),并提供预训练和微调的检查点。Gemma 在 18 个基于文本的任务中,有 11 个任务优于类似规模的开放模型。我们全面评估了模型的安全性和责任方面,同时详细描述了模型的开发过程。我们认为,负责任地发布 LLM 对于提高前沿模型的安全性,并推动 LLM 的下一波创新至关重要。
Mar, 2024
我们介绍了一个开放的语言模型,使用了谷歌的全新的 Griffin 架构。Griffin 结合了线性递归和局部注意力,在语言方面有出色的表现。它具有固定大小的状态,可减少内存使用并在长序列上实现高效的推理。我们提供了一个已经预训练的模型,其中包含 2B 个非嵌入参数,还有经过调整的指令变种。尽管这两个模型的训练标记较少,但它们都实现了与 Gemma-2B 相当的性能。
Apr, 2024
本文提出了由 GPT-2 架构拓展得到的 Generative EnhancedModel(GEM),借助目标词汇的输入增强现有上下文的输入,使文本生成过程更可控。训练得到的模型通过混合多篇文章中的事实生成具有误导性的声明,进而提高了事实核查的难度。
Oct, 2019
我们提出了一种方法,通过对开源语言模型进行微调,使其能够使用代码进行建模,并推导出数学方程,从而增强其数学推理能力。我们介绍了一种生成包含数学问题和基于代码的解决方案的新颖高质量数据集的方法,称为 MathCodeInstruct。我们还引入了一种定制的有监督微调和推理方法。这种方法产生了 MathCoder 模型,一组能够生成基于代码的解决方案来解决具有挑战性的数学问题的模型。令人印象深刻的是,MathCoder 模型在 MATH(45.2%)和 GSM8K(83.9%)数据集上取得了开源语言模型的最新得分,远远超过其他开源方案。值得注意的是,MathCoder 模型不仅在 GSM8K 和 MATH 上超过了 ChatGPT-3.5 和 PaLM-2,还超过了 GPT-4 在竞争级别的 MATH 数据集上。数据集和模型将在此 URL 发布。
Oct, 2023
我们使用近期发布的 Gemma 系列大型语言模型(LLMs)在流行的 LLaVA 框架中训练了一套多模态基础模型(MMFM)。我们测试了删除三个设计特征对模型性能的影响,并对性能进行了深入分析。最终的 LLaVA-Gemma 模型在多项评估中表现适中,但未能超越当前规模相当的 SOTA 模型。
Mar, 2024
为了发挥代码 LLMs 的全部潜力,我们引入了一系列解码器专用的 Granite 代码模型,用于代码生成任务,该模型在多项任务中表现出了最新的性能,为企业软件开发工作流程进行优化。
May, 2024
OMPGPT 是一个新型的、精心设计的模型,旨在利用语言模型的先天优势进行 OpenMP 预定义指令生成,同时采用 NLP 领域的提示工程技术,通过链式 OMP 提升其效果。在广泛的评估中,我们发现 OMPGPT 在 OpenMP 任务中胜过现有的大型语言模型,并且体积明显更小,更加符合 HPC 环境的硬件限制。我们认为 OMPGPT 是一座重要的桥梁,连接了语言模型的优势与 HPC 任务的特定需求。OMPGPT 的成功为计算效率和效果提供了可靠的基础,并且表明其潜在的适用性和可调整性可以延伸到更广泛的 HPC 任务范畴,从而在计算效率和效果领域开辟了新的道路。
Jan, 2024
使用大型语言模型(LLMs)如 ChatGPT 从自然语言中生成代码似乎是开创性的。然而,随着更广泛的使用,显然这种方法有自己的局限性。本研究提出了一种敏捷模型驱动开发(MDD)方法,使用 OpenAI 的 GPT-4 来增强代码自动生成。我们的工作强调 “敏捷性” 是对当前 MDD 方法的重要贡献,特别是当模型发生变化或需要部署到不同的编程语言时。因此,我们展示了一个案例研究,展示了无人驾驶车队的多代理仿真系统。在我们的方法的第一层和第二层,我们使用统一建模语言(UML)图示构建了案例研究的文本表示。在下一层中,我们引入了两组约束,以最小化模型的歧义性。对象约束语言(OCL)被应用于微调代码构建细节,而 FIPA 本体论用于塑造通信语义和协议。最后,利用 GPT-4,我们的最后一层自动生成 Java 和 Python 两种代码。Java 代码在 JADE 框架中部署,而 Python 代码在 PADE 框架中部署。在研究的结论部分,我们进行了对生成代码的全面评估。从行为角度来看,自动生成的代码与预期的 UML 顺序图完全一致。结构上,我们比较了仅受 OCL 约束的从 UML 图中导出的代码与既受 OCL 又受 FIPA 本体论影响的代码的复杂性。结果表明,本体论约束的模型产生了固有更复杂的代码,但仍然可管理并且对进一步的测试和维护风险较低。
Oct, 2023
大型语言模型 (Large Language Models,LLMs) 被广泛应用于各种应用中,代码生成作为一个显著例子。本文聚焦于确定和理解在真实场景中,LLMs 可有效且安全地用于生成高质量代码的条件和环境。通过对四个先进的 LLMs (GPT-3.5 和 GPT-4,ChatGPT,Bard 和 Gemini) 进行比较分析,使用 9 个不同任务评估每个模型的代码生成能力。我们将研究情境化,以代表日常工作中开发人员使用 LLMs 执行常见任务的典型用例。此外,我们强调安全意识,通过使用我们的开发者角色的两个不同版本来表示。总共我们收集了 61 个代码输出并分析了其功能性、安全性、性能、复杂性和可靠性等方面。这些洞见对于理解模型的能力和限制非常重要,并指导未来在自动化代码生成领域的开发和实际应用。
Feb, 2024
本技术报告介绍了 BigCode 项目截至 2022 年 12 月的进展情况,包括当前状态的个人身份信息 (PII) 清理管道、减少模型架构风险的实验以及改进训练数据预处理方法的实验。我们在 The Stack 的 Java、JavaScript 和 Python 子集上训练了 11 亿参数模型,并在 MultiPL-E 的文本到代码基准测试上进行了评估。我们发现,更激进地过滤近似重复的数据可以进一步提高性能,并令人惊讶的是,从具有超过 5 个 GitHub 星的代码库中选择文件实际上会明显降低性能。我们最好的模型在 MultiPL-E 的 Java、JavaScript 和 Python 部分的从左到右生成和插值中都优于以前的开源多语言代码生成模型 (InCoder-6.7B 和 CodeGen-Multi-2.7B),尽管它是一个相对较小的模型。所有模型均在 https://github.com/bigcode/BIGCODE 中以 OpenRAIL 许可证发布。
Jan, 2023