SIP: 通过随机指令摄动自动调优 GPU 本地调度

Mar, 2024

SIP: 通过随机指令摄动自动调优 GPU 本地调度

SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation

Guoliang He, Eiko Yoneki

TL;DR通过自动优化搜索空间和随机搜索方法，我们实现了 GPU 原生指令优化，从而进一步提高了 CUDA 核心的吞吐量，并通过 1000 万个测试样本对优化后的指令进行了测试。

Abstract

large language models (LLMs) have become a significant workload since their appearance. However, they are also computationally expensive as they have billions of parameters and are trained with massive amounts of data. Thus, recent works have developed dedicated →

large language models computational expense cuda kernels gpu native instruction optimization stochastic search

发现论文，激发创造

使用深度序列模型预测最佳核调参

使用深度序列到序列模型预测 GPU 计算内核的最佳调优参数，能够准确学习 GPU 计算内核的性能动态，减少开发时间和计算资源。

Apr, 2024

开源 LLM 指令调整的自动指令优化

通过自动修订样本来增强指令数据集的质量，CoachLM 训练自人工专家修订过的样本，并将数据集中高质量样本的比例从 17.7％提高到 78.9％。CoachLM 通过平均 29.9％的提升改善了指令调优的语言学习模型的指令跟随能力，并在华为的 LLM 数据管理系统中实现了高达 20％的效率提升。

Nov, 2023

自动生成和排序黑盒语言模型的自动指导

LLMs 可以通过遵循自然语言指令来完成各种任务，但是指令的质量会对 LLMs 的性能产生极大影响。本文提出了 Auto-Instruct 方法，通过生成多样化的候选指令并使用基于训练过的 575 个 NLP 任务的评分模型进行排序，自动提高 LLMs 的指令质量。在 118 个领域外任务的实验证明，Auto-Instruct 超越了人工编写的指令和现有 LLM 生成的指令的基线。此外，我们的方法还具有显著的泛化能力，即使对于没有被纳入其训练过程的其他 LLMs 也同样有效。

Oct, 2023

使用顺序指令对大型语言模型进行微调

大语言模型（LLMs）在单个查询中难以遵循一系列指令，从而可能忽略或错误解释其中的一部分，这影响了它们在需要多个中间步骤的复杂问题（例如多语言（翻译然后回答）和多模态（字幕然后回答）任务）中的性能。我们通过使用开源 LLMs（如 LLaMA-2 70B 和 Mixtral-8x7B）进行实证验证。针对当今数据中顺序指令的稀缺性，我们提出了顺序指令调整，这是一种简单而有效的策略，用于自动增加指令调整数据并赋予 LLMs 执行多个顺序指令的能力。通过探索 Alpaca 等现有数据集中的交替指令和各种中间任务，我们发现，顺序指令调整模型在涉及推理、多语言和多模态能力的下游任务中始终优于传统的指令调整基线。为了进一步阐明我们的技术，我们分析了敌对中间文本、未见任务、提示语言的表达、任务数量和提示长度对顺序指令调整的影响。我们希望这种方法能为复杂任务的指令调整开辟新的研究途径。

Mar, 2024

大语言模型的分布转移鲁棒指令优化

本文针对大型语言模型自然语言处理任务中指令优化研究，提出了一种框架，可为 LLM 提供更健壮的最优指令以在具有不同分布的测试数据上提高性能，同时保持在训练数据上的表现。

May, 2023

基于机器学习和分析模型的 GPU 嵌入式系统性能调优方法

本论文研究了 GPU 嵌入式系统上的调优方法，并比较了基于分析模型和基于机器学习的调优方法的性能，在 NVIDIA Jetson 系统上评估了 BPLG 库的不同并行前缀实现的性能，并与穷举搜索的性能进行了比较，为解决服务器和嵌入式设备间主要计算模式的性能可移植性提供了实用指导。

Oct, 2023

多阶段语言模型程序的指示和演示优化

为了最大化下游度量而没有模块级别的标签或梯度，我们研究了语言模型程序的提示优化，即如何更新这些提示。我们通过优化自由形式的指令和少样本演示来解决这个问题，并引入了几种策略来制定任务相关的指令和在模块之间导航学分分配。使用这些策略，我们开发了一个名为 MIPRO 的新型优化器，在使用最先进的开源模型（Llama-3-8B）的六个不同的语言模型程序中，准确率高达 12.9% 优于基线。我们将在此 URL 发布我们的新优化器和基准测试。

Jun, 2024

Pipette: 大规模自动细粒度语言模型训练配置器用于真实世界集群

Pipette 是一个针对现实世界集群的自动细粒度 LLM 训练配置器，通过设计更好的性能模型、内存估计器和细粒度的个别 GPU 分配，Pipette 在满足内存约束条件下实现更快的配置，并且相比现有技术提供了显著的加速。

May, 2024

GPGPU 上局部内存使用的自动调优

本研究利用机器学习模型，在数百万个合成基准测试以及真实基准测试中，高精度地预测和决定是否应该使用本地存储器以优化单个数组的性能。

Dec, 2014

基于自动调优的混合内核 SVM 分类优化框架在智能像素数据集和异质结晶体管中的应用

支持向量机 (SVM) 是一种科学和工程中广泛使用的最先进的分类方法，本文提出了一种基于自动调节优化框架的方法来量化 SVM 中超参数的范围，以确定它们的最佳选择，并将该框架应用于混合核函数的智能像素数据集和混合核异质结晶体管 (MKH) 数据集，实验结果表明超参数的最佳选择对于不同的应用和数据集有很大的差异，未知的超参数 C 和 coef0 会导致严重的低准确率，该方法可以有效地量化超参数的合适范围并确定其最佳选择来实现最高准确率，高能物理 (HEP) 应用的最高准确率达到 94.6％，MKH 应用的平均准确率为 97.2％且调优时间大大减少。

Jun, 2024