Ithemal: 使用深度神经网络进行准确、可移植和快速的基本块吞吐量估计

Aug, 2018

Ithemal: 使用深度神经网络进行准确、可移植和快速的基本块吞吐量估计

Ithemal: Accurate, Portable and Fast Basic Block Throughput Estimation using Deep Neural Networks

Charith Mendis, Saman Amarasinghe, Michael Carbin

TL;DR本文介绍了一种采用层次化LSTM方法，基于汇编指令的操作码和操作数来预测处理器执行单元在稳态下的吞吐量的工具Ithemal，相较于目前用于编译器后端和静态机器代码分析器的商业化工具，Ithemal的误差较少且速度快，且适用于各种微处理器。

Abstract

Statically estimating the number of processor clock cycles it takes to execute a basic block of assembly instructions in steady state (throughput) is important for compiler backend optimizations such as register allocation, instruction selection and instruction scheduling. This is complicated specially in modern x86-64 Complex Instruction Set Computer (CISC)

发现论文，激发创造

为定制硬件加速器编译深度学习模型

本研究旨在提出一种编译器，通过 Torch7 模型描述文件生成机器级指令，并实现了一种与卷积神经网络相关的定制硬件加速器 Snowflake，优化了模型结构解析、CNN 负载分解、内存带宽优化和平衡内存访问等方面，以达到生成的指令的性能与手动优化代码相当，并有效地执行 AlexNet 和 ResNet18 推理任务。

Aug, 2017

Pyramid: 机器学习框架估计高层综合设计的最佳时机和资源使用

提出了一个基于机器学习的框架Pyramid，通过使用已有的数据，大大提高了高级综合（HLS）所设计的硬件的性能优化，将复杂的CAD工具分析简单化，提高了预估工作的准确度。

Jul, 2019

ProGraML: 基于图的深度学习用于程序优化和分析

ProGraML是一种使用低级别、语言无关和可移植格式的新颖基于图的程序表示，其中包含能够对整个程序或每个顶点执行分类任务的机器学习模型，其提供了一种通用的程序表示，使可学习的模型能够执行优化所必需的程序分析类型，并在传统编译器分析任务、异构设备映射和程序分类等高级任务方面取得了具有以下优势的最新性能：94.0 F1评分

Mar, 2020

DiffTune: 用可学习的可微替代模型优化 CPU 模拟器参数

该研究介绍了DiffTune，一个用于在渐进端到端测量中从粗粒度调整x86基本块CPU模拟器参数的系统。通过将原始模拟器替换为可微分代理，DiffTune能够应用基于渐变的优化技术，并将学习的参数插入回原始模拟器，从而降低了CPU模拟器的平均误差。

Oct, 2020

CoMEt：x86成本模型解释框架

提出了第一种获得机器学习代价模型预测的准确且直观的解释的方法，并使用Ithemal和uiCA等代价模型进行了实证比较，结果表明Ithemal和uiCA的解释越相似，则它们的预测结果也越相似。

Feb, 2023

TransPimLib：一种用于处理内存系统上高效处理超越函数的库

本研究介绍了TransPimLib库，该库提供基于CORDIC和LUT的方法，用于三角函数、双曲函数、指数、对数、平方根等计算，并在使用微基准和三个工作负载（Blackscholes、Sigmoid、Softmax）进行了性能和精度的全面评估，支持PIM系统中的复杂运算，适用于机器学习等现代工作负载。

Apr, 2023

NPS：使用图神经网络进行准确程序采样的框架

该研究介绍了一种名为神经程序抽样的新框架，它可以学习动态图神经网络的执行嵌入，以提高微处理器设计中程序抽样的表现，实验证明神经程序抽样在准确性和鲁棒性方面较传统方法有优势。

Apr, 2023

机器设计技术的新突破：自动化CPU设计与AI

通过机器学习方法成功设计并构造了一种微处理器电路，并且性能可以媲美由人类设计的电路。该方法甚至自主发现了冯·诺伊曼结构的人类知识。

Jun, 2023

重新思考基于深度学习的微结构仿真

本文介绍了TAO，它通过重新设计基于深度学习的模拟方法，提出了一种新的训练数据集设计，使用自注意力机制重新设计输入特征和DL模型以预测各种性能指标，并提出了训练一个微架构不可知嵌入层的技术，可以在不同的微架构配置之间进行快速迁移学习，并减少传统DL模拟器的重新训练开销。经过广泛的评估，我们的方法相比于现有的DL模拟器能够减少总体的训练和模拟时间18.06倍。

Apr, 2024

深度神经网络加速器快速准确性能模型的自动生成

本研究针对在资源受限的边缘设备上实现深度神经网络（DNN）面临的挑战，提出了一种自动生成快速性能模型的方法，以准确估算映射到加速器架构的DNN延迟。我们的关键发现是，该方法结合DNN硬件依赖图分析，显著加速了性能评估过程，相较于仿真结果，有效降低了平均绝对百分比误差（MAPE）。

Sep, 2024