大型语言模型用于编译器优化

Sep, 2023

Large Language Models for Compiler Optimization

Chris Cummins, Volker Seeker, Dejan Grubisic, Mostafa Elhoushi, Youwei Liang...

TL;DR我们探索了将大型语言模型应用于代码优化。我们提出了一个从头开始训练的 7B 参数的变换器模型，用于优化 LLVM 汇编的代码大小。该模型以未优化的汇编作为输入，并输出一系列最佳优化程序的编译器选项。在训练过程中，重要的是我们要求模型预测优化前后的指令计数和优化后的代码本身。这些辅助学习任务显著提高了模型的优化性能，并增强了模型的理解深度。我们在大量的测试程序上进行评估。我们的方法在减少指令计数方面比编译器的效果提高了 3.0%，超过了需要数千次编译的两个最先进的基线。此外，该模型显示出令人惊讶的强大代码推理能力，91% 的代码可编译，70% 的时间能完美模拟编译器的输出。

Abstract

We explore the novel application of large language models to code optimization. We present a 7B-parameter transformer model trained from scratch to optimize →

large language models code optimization transformer model llvm assembly compiler options

发现论文，激发创造

大型语言模型的编译器生成反馈

使用具有编译器反馈的大型语言模型介绍了编译器优化的新范例，旨在优化 LLVM 汇编的代码大小。该模型以未优化的 LLVM IR 作为输入，生成优化的 IR、最佳优化过程以及未优化和优化的 IR 的指令计数。然后，将输入与生成的优化过程进行编译，并评估预测的指令计数是否正确、生成的 IR 是否可编译并且是否对应编译后的代码。将此反馈返回到 LLM，使其有机会再次优化代码。这种方法相对于原始模型的 - Oz 额外提供了 0.53% 的改进，尽管使用反馈的更多信息似乎是直观的，但根据 10 个或更多的样本，简单的抽样技术实现了更高的性能。

Mar, 2024

AI 对您的代码进行优化吗？对比当前大型语言模型与经典优化编译器的研究

该论文通过比较分析两种先进的大型语言模型（GPT-4.0 和 CodeLlama-70B）与传统优化编译器在代码优化方面的能力和局限性，以及引入了一套挑战性的优化模式基准和用于评估生成代码性能和正确性的自动机制，发现虽然大型语言模型有超越当前优化编译器的潜力，但在大型代码上常常生成不正确的代码，需要自动化验证方法，其中 CodeLlama-70B 在两种大型语言模型中表现最佳，最大加速能达到 2.1 倍，而 CETUS 在优化编译器中表现最佳，最大加速能达到 1.9 倍。同时，两种提示方法（思考链和指令提示）没有显著差异。

Jun, 2024

探索输出格式对代码翻译的大型语言模型评估的影响

代码翻译的大语言模型综合评估以及通过策略组合和正则表达式提取源代码的研究结果揭示了代码翻译的实际性能和未来研究方向。

Mar, 2024

CodeGen2：训练大型语言模型处理编程和自然语言的经验教训

本文研究如何通过整合模型架构、学习方法、填充采样和数据分布等四个关键组件来提高大型语言模型在程序综合方面的训练效率，并在 1B LLMs 上开展了一系列实验，提炼出四个教训并发布了 CodeGen2 模型和训练框架。

May, 2023

提高大型语言模型的推理效率：研究优化策略与架构创新

通过跳过 Transformer LLMs 中后面的 attention 子层，可以有效地对大型语言模型进行压缩，提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升，并出乎意料地改善了在多个常见基准测试中的性能。

Apr, 2024

性能对齐的 LLM 用于生成高效代码

通过引入强化学习的方法，将代码 LMM 的输出与性能对齐，提高生成代码的期望加速比，并在一组基准任务中展示了 0.9 至 1.6 倍的串行代码速度提升和 1.9 至 4.5 倍的 OpenMP 代码速度提升。

Apr, 2024

机器翻译的范式转变：提升大型语言模型的翻译性能

通过提出一种新的微调方法，我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA，该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升，并为机器翻译领域的新的训练范式奠定了基础。

Sep, 2023

大型语言模型能否编写并行代码？

本研究提出了一个用于评估最新语言模型在生成并行代码方面能力的基准测试集，以及评估了多个开源和闭源语言模型在此基准测试集上的性能，并引入了用于比较并行代码生成性能的新指标，旨在探讨每个语言模型在不同并行编程模型和计算问题类型上的表现。

Jan, 2024

探索和释放大型语言模型在自动代码翻译中的潜力

LLMs 和基于学习的转译器在自动代码转换任务中取得了显著的性能提升，但当前仍存在一些准确性问题和资源限制。本研究发现，大部分失败源于对源程序的理解不足、在转换中缺少清晰的 I/O 类型指令以及源程序与目标程序之间的差异被忽略。鉴于以上研究结果，我们提出了 UniTrans，一个适用于多种 LLMs 的统一代码转换框架，通过生成测试用例、自动增强转换并验证正确性的执行过程，进一步修复转换错误。在 Python、Java 和 C++ 之间的六个转换数据集上进行了大量实验，三个最近的 LLMs 通过 UniTrans 实现了大幅度的改进。

Apr, 2024

ML-Bench：大型语言模型基于开源库进行机器学习任务

通过使用开源库完成机器学习任务，本文旨在提出一种新的评估设置，以评估大型语言模型（LLMs）在实际编程中的适用性，并介绍了 ML-Bench 和 ML-Agent 两个工具，用于评估 LLMs 在利用开源函数时的有效性。

Nov, 2023