通过机器学习加速计算机架构模拟
针对机器学习在实时决策中的应用,提出需要一种新的分布式执行框架来实现毫秒延迟、高吞吐、任务图的自适应构建以及异构内核的执行等一系列要求,并提出了一个候选方案,其架构已经获得了 63 倍的性能提升。
Mar, 2017
本研究提出了一个基于机器学习的数据生成框架,旨在辅助那些利用模拟来研究各种物理系统或过程的研究人员。我们的方法包括两个步骤:首先,我们使用有限的模拟数据训练监督预测模型来预测模拟结果;然后,我们使用强化学习代理来生成准确的、类似于模拟的数据,从而更有效地探索参数空间并深入了解物理系统或过程。我们通过两个案例研究:一个关注地震破裂物理,另一个关注新材料开发,证明了所提出框架的有效性。
May, 2023
本文介绍一种训练框架,可对机器学习进行科学计算,并通过缓存数据来减轻同时生成数据的时间延迟。实验表明,该框架在多参数 Lorenz 吸引子的测试中成功缓解了数据偏差,从而可以更好地捕捉系统的复杂混沌动态。
Nov, 2022
本文研究了公开宣布具有性能和功耗数字的多核处理器和加速器的现状,发现其中一些趋势,包括功耗、数字精度以及推理与训练等方面的趋势,并选择并测试了两个低尺寸、重量和功率的商用加速器的实际表现,将其与报道的性能和功耗数值进行比较,并将其与嵌入式应用程序中使用的 Intel CPU 进行评估。
Aug, 2019
本文提出了一种利用标准频率回归模型通过网络架构、超参数和时间序列验证性能数据来预测部分训练模型配置的最终性能的方法,并证明该方法在视觉分类和语言建模领域中是有效的。同时,我们提出了一种早期停止方法,可用于超参数优化和元模建模,加速了模型配置的优化过程,该方法在强化学习 - based 架构选择算法和基于贝叶斯思想的搜索方法中均可无缝集成。
May, 2017
利用机器学习技术优化复杂系统的方法,通过少量数据训练得到的仿真器可近乎瞬间地给出准确结果和在海量参数空间内全局求解的优化结果,本研究以下一代毫米波蜂窝网络模拟器为例进行了验证并得到了成功的结果。
Aug, 2019
研究探讨了基于内存为中心的计算系统中处理器内存访问瓶颈和大量能量消耗的解决方案,考察 PIM 架构对机器学习算法训练的潜力,通过评估经典算法在 PIM 和传统 CPU、GPU 上的性能、准确度和扩展性对比,表现出更高效的处理机制和更好的加速效果。
Jul, 2022
验证吞吐量是一个主要挑战瓶颈,本文讨论了若干提高验证吞吐量的方法,包括排名和 Cadence 引入的基于机器学习的技术 Xcelium ML。通过更高效的刺激,这两种方法旨在在更少的 CPU 时间中获得可比的覆盖率。在三个实际工业项目的示例中,讨论了每种方法的定量结果以及优缺点。Xcelium ML 和排名方法在压缩率和加速比方面一致获得大约 3 的结果,而优化的基于机器学习的回归方法偶尔产生了超过 100% 的覆盖率回升。最后,提出了一种在产品开发中有效使用 Xcelium ML 的方法学。
May, 2024
本文介绍了 TAO,它通过重新设计基于深度学习的模拟方法,提出了一种新的训练数据集设计,使用自注意力机制重新设计输入特征和 DL 模型以预测各种性能指标,并提出了训练一个微架构不可知嵌入层的技术,可以在不同的微架构配置之间进行快速迁移学习,并减少传统 DL 模拟器的重新训练开销。经过广泛的评估,我们的方法相比于现有的 DL 模拟器能够减少总体的训练和模拟时间 18.06 倍。
Apr, 2024