Ithemal: 使用深度神经网络进行准确、可移植和快速的基本块吞吐量估计
本研究旨在提出一种编译器,通过 Torch7 模型描述文件生成机器级指令,并实现了一种与卷积神经网络相关的定制硬件加速器 Snowflake,优化了模型结构解析、CNN 负载分解、内存带宽优化和平衡内存访问等方面,以达到生成的指令的性能与手动优化代码相当,并有效地执行 AlexNet 和 ResNet18 推理任务。
Aug, 2017
提出了一个基于机器学习的框架Pyramid,通过使用已有的数据,大大提高了高级综合(HLS)所设计的硬件的性能优化,将复杂的CAD工具分析简单化,提高了预估工作的准确度。
Jul, 2019
ProGraML是一种使用低级别、语言无关和可移植格式的新颖基于图的程序表示,其中包含能够对整个程序或每个顶点执行分类任务的机器学习模型,其提供了一种通用的程序表示,使可学习的模型能够执行优化所必需的程序分析类型,并在传统编译器分析任务、异构设备映射和程序分类等高级任务方面取得了具有以下优势的最新性能:94.0 F1评分
Mar, 2020
该研究介绍了DiffTune,一个用于在渐进端到端测量中从粗粒度调整x86基本块CPU模拟器参数的系统。通过将原始模拟器替换为可微分代理,DiffTune能够应用基于渐变的优化技术,并将学习的参数插入回原始模拟器,从而降低了CPU模拟器的平均误差。
Oct, 2020
提出了第一种获得机器学习代价模型预测的准确且直观的解释的方法,并使用Ithemal和uiCA等代价模型进行了实证比较,结果表明Ithemal和uiCA的解释越相似,则它们的预测结果也越相似。
Feb, 2023
本研究介绍了TransPimLib库,该库提供基于CORDIC和LUT的方法,用于三角函数、双曲函数、指数、对数、平方根等计算,并在使用微基准和三个工作负载(Blackscholes、Sigmoid、Softmax)进行了性能和精度的全面评估,支持PIM系统中的复杂运算,适用于机器学习等现代工作负载。
Apr, 2023
该研究介绍了一种名为神经程序抽样的新框架,它可以学习动态图神经网络的执行嵌入,以提高微处理器设计中程序抽样的表现,实验证明神经程序抽样在准确性和鲁棒性方面较传统方法有优势。
Apr, 2023
本文介绍了TAO,它通过重新设计基于深度学习的模拟方法,提出了一种新的训练数据集设计,使用自注意力机制重新设计输入特征和DL模型以预测各种性能指标,并提出了训练一个微架构不可知嵌入层的技术,可以在不同的微架构配置之间进行快速迁移学习,并减少传统DL模拟器的重新训练开销。经过广泛的评估,我们的方法相比于现有的DL模拟器能够减少总体的训练和模拟时间18.06倍。
Apr, 2024
本研究针对在资源受限的边缘设备上实现深度神经网络(DNN)面临的挑战,提出了一种自动生成快速性能模型的方法,以准确估算映射到加速器架构的DNN延迟。我们的关键发现是,该方法结合DNN硬件依赖图分析,显著加速了性能评估过程,相较于仿真结果,有效降低了平均绝对百分比误差(MAPE)。
Sep, 2024