利用小像素批量梯度下降算法优化物理设计流程中的预测性人工智能

Feb, 2024

利用小像素批量梯度下降算法优化物理设计流程中的预测性人工智能

Optimizing Predictive AI in Physical Design Flows with Mini Pixel Batch Gradient Descent

Haoyu Yang, Anthony Agnesina, Haoxing Ren

TL;DR我们提出了迷你像素批梯度下降（MPGD）算法，用于优化预测模型在芯片物理设计流程中的收敛速度和效果。实验证明，MPGD 在使用 CNN 或基于图的模型进行各种物理设计预测任务时带来了显著的益处。

Abstract

Exploding predictive ai has enabled fast yet effective evaluation and decision-making in modern chip physical design flows. State-of-the-art frameworks typically include the objective of minimizing the

predictive ai chip physical design flows mean square error model training physical design prediction tasks

发现论文，激发创造

深度神经网络训练的自适应梯度预测

提出了一种名为 ADA-GP 的算法，通过使用梯度预测来加速深度神经网络（DNN）的训练，同时保持准确性，并且这种算法具有可适应的特性来平衡精度和性能，同时还提供了一种详细的硬件扩展来实现梯度预测加速潜力。通过对 14 种 DNN 模型的广泛实验表明，与基线模型相比，ADA-GP 可以实现 1.47 倍的平均加速，并且由于减少了与基线硬件加速器相比的外部内存访问，平均消耗的能量降低了 34％。

May, 2023

减少梯度逼近的对抗训练成本

采用梯度逼近的对抗训练方法能够减少建立稳健模型的成本，而对于常见数据集如 MNIST、CIFAR-10 和 CIFAR-100，该方法在训练时间上节省了高达 60% 的时间，并且在模型测试准确性上没有明显损失。

Sep, 2023

基于 SMDP 的 GPU 平台高效推断动态分批

本文提出了一种动态批处理策略，该策略可以在 GPU 上实现高效算法和长时间响应之间的平衡，通过将 GPU 推理服务建模为一个批处理服务队列，然后将设计问题转化为半马尔可夫决策过程，通过解决一个相关的离散时间马尔可夫决策过程问题获得最优策略。

Jan, 2023

机器学习辅助的卷积神经网络推断系统计算机架构设计

我们的工作通过识别最合适的 GPGPU 用于 CNN 推理系统，提出了一种加快 DSE 过程的方法。我们开发了一种快速而精确的技术来预测 CNN 推理过程中的功耗和性能，MAPE 分别为 5.03％和 5.94％。这种方法使计算机架构师能够在开发初期估计功耗和性能，减少了大量原型的必要性。这不仅节省了时间和金钱，同时也改善了上市时间。

Aug, 2023

大规模深度学习的可伸缩实用自然梯度

本文提出了 Scalable and Practical Natural Gradient Descent（SP-NGD）算法，一种能够解决大规模深度神经网络训练中 mini-batch size 增加导致泛化能力下降的问题，且能够快速收敛并达到类似一阶优化方法的泛化性能，同时可进行大规模分布式训练。实验结果表明，使用 SP-NGD 算法进行 ImageNet 数据集上的 ResNet-50 模型训练，能够在 5.5 分钟内，使用 32768 的 mini-batch size 和 1024 个 GPU，获得 75.4% 的 top-1 验证精度；且在 873 个步骤内，即使使用极大的 mini-batch size=131072，也能够达到 74.9% 的准确率。

Feb, 2020

通过像素级梯度剪裁提升高分辨率三维生成

通过像素级梯度剪裁（PGC）方法，提高现有高分辨率三维生成模型的性能，以改进高分辨率三维物体渲染的综合质量。

Oct, 2023

最小二乘回归的随机梯度下降并行化：小批量、平均和模型错误

该研究探讨了在随机梯度下降中广泛使用的平均方案的好处。特别是，通过对最小二乘回归的随机逼近问题进行非渐进超额风险分析，提供了这些方案的性能保证，并提出了高度可并行化的随机梯度下降方法。同时，该研究认为，为了保证最小极大风险，针对混浊噪声的步长必须是噪声属性的一个函数。

Oct, 2016

规模化流水线反向传播：无批量训练大型模型

本文研究了深度神经网络的硬件加速器，并提出了一种具有硬件优势的异步管道并行训练算法。通过引入 Spike Compensation 和 Linear Weight Prediction 两种方法，它有效地减轻了由 Pipelined Backpropagation 的异步性造成的缺点，并优于现有技术。适当的标准化和小批量大小也有助于训练，与 SGD 相比，它能够在 CIFAR-10 和 ImageNet 上为多个网络的训练匹配准确度。

Mar, 2020

使用 Mini-Batches 的最优分布式在线预测

本文介绍了一种将串行渐变型在线预测算法转化为分布式算法的方法 —— 分布式 Mini-batch 算法，证明了该算法适用于平滑凸损失函数和随机输入，并明确考虑了分布式环境中节点间通信延迟，同时展示了该算法如何用于解决分布式随机优化问题，并在网络规模的在线预测问题中展示了其优点。

Dec, 2010

利用典型性采样加速小批量随机梯度下降

通过基于典型性采样的批次选择方法，构建更有效率的批次选择策略来降低传统 Mini-batch SGD 中梯度估计误差，提高收敛速度及效果。

Mar, 2019