DiffTune: 用可学习的可微替代模型优化 CPU 模拟器参数
本研究旨在提出一种编译器,通过 Torch7 模型描述文件生成机器级指令,并实现了一种与卷积神经网络相关的定制硬件加速器 Snowflake,优化了模型结构解析、CNN 负载分解、内存带宽优化和平衡内存访问等方面,以达到生成的指令的性能与手动优化代码相当,并有效地执行 AlexNet 和 ResNet18 推理任务。
Aug, 2017
本文介绍了一种采用层次化LSTM方法,基于汇编指令的操作码和操作数来预测处理器执行单元在稳态下的吞吐量的工具Ithemal,相较于目前用于编译器后端和静态机器代码分析器的商业化工具,Ithemal的误差较少且速度快,且适用于各种微处理器。
Aug, 2018
DiffTaichi是一种新的可微编程语言,专为构建高性能的可微物理模拟器而设计,演示了它在10个不同物理模拟器的梯度学习和优化任务中的性能和生产力,可以用于优化神经网络控制器。
Oct, 2019
本文提出了 BenchPress 和 BenchDirect,利用机器学习编译器生成基准测试案例,能够在源代码特征表示内定向生成可执行的函数,通过主动学习向已有数据集中引入具有未见过特征的新基准测试案例,成功地针对 Rodinia 的基准测试的特征进行了生成,模型的辨别和准确度效果优于现有方法。
Mar, 2023
该研究介绍了一种名为神经程序抽样的新框架,它可以学习动态图神经网络的执行嵌入,以提高微处理器设计中程序抽样的表现,实验证明神经程序抽样在准确性和鲁棒性方面较传统方法有优势。
Apr, 2023
本文介绍了Gem5,这是一个开源、灵活且具有成本效益的模拟器,在硬件模拟的学术和工业领域被广泛认可和使用。为了解决Gem5程序模拟时间通常耗时的问题,本文提出了一个特定用途的独特数据集。通过对Gem5中不同指令类型对模拟时间的影响进行分析,我们采用三种不同的模型利用CodeBERT执行基于所开发数据集的预测任务。我们出色的回归模型达到了0.546的平均绝对误差(MAE),而我们表现最好的分类模型记录了0.696的准确率。我们的模型为今后在该领域的研究奠定了基础,并可作为后续模型进行比较的基准。我们希望我们的贡献能够推动这一领域的进一步研究。我们使用的数据集可在此https URL获取。
Oct, 2023
这篇论文提出了PerfVec,一种基于深度学习的性能建模框架,它学习高维、独立/正交的程序和微架构表示。学习完成后,程序表示可以用于预测其在任何微架构上的性能,微架构表示也可用于预测任何程序的性能。此外,PerfVec还提供了一个基础模型,能够捕捉指令性能的本质,并可以直接供开发者在许多性能建模任务中使用,而无需其训练成本。实证评估证明,PerfVec比先前的方法更具一般性、高效性和准确性。
Oct, 2023
该论文提出了一种通过利用机器学习技术加速计算机体系结构模拟的方法,该方法利用应用特征和微架构特征的组合来预测应用程序的性能,通过构建和评估一个机器学习模型展示了在体系结构探索方面的显著加速能力。
Feb, 2024
本文介绍了TAO,它通过重新设计基于深度学习的模拟方法,提出了一种新的训练数据集设计,使用自注意力机制重新设计输入特征和DL模型以预测各种性能指标,并提出了训练一个微架构不可知嵌入层的技术,可以在不同的微架构配置之间进行快速迁移学习,并减少传统DL模拟器的重新训练开销。经过广泛的评估,我们的方法相比于现有的DL模拟器能够减少总体的训练和模拟时间18.06倍。
Apr, 2024
Bayesian optimization and compiler autotuning research is advanced through the use of CATBench, a benchmarking suite that captures the complexities of compiler autotuning using machine learning-oriented computations.
Jun, 2024