虚假黎明：重新评估谷歌用于芯片宏放置的强化学习

Jun, 2023

虚假黎明：重新评估谷歌用于芯片宏放置的强化学习

The False Dawn: Reevaluating Google's Reinforcement Learning for Chip Macro Placement

Igor L. Markov

TL;DR谷歌在《自然》杂志上发表的物理硅芯片设计强化学习研究存在方法和结果不当的质疑，两项独立评估显示，它表现远不及人类设计师、著名模拟退火算法和一般可获得的商业软件，而且《自然》论文真实性受到了错误行为、分析和报告的破坏。

Abstract

reinforcement learning (RL) for physical design of silicon chips in a google 2021 Nature paper stirred controversy due to poorly documented claims that raised eyebrows and attracted critical media coverage. The N

reinforcement learning silicon chips design google methodology evaluation

发现论文，激发创造

强化学习在宏观布局评估中的应用

本研究提供了 Google Brain 在深度强化学习中应用于宏观布局及其电路训练的开放、透明的实现和评估。同时，我们实现了 CT 的关键 “黑盒” 元素，并澄清了 CT 和 Nature 论文之间的差异，并通过新的测试用例进行评估。最终我们与多个其他宏观布局工具进行了评估，评估流程和相关脚本都公开在 GitHub 上。本实验还涵盖了学术混合大小布局基准以及消融和稳定性研究。我们还对 Nature 和 CT 的影响以及未来研究方向进行了评论。

Feb, 2023

使用深度强化学习进行芯片布局

本文提出了一种基于学习的芯片布局方法，使用强化学习将芯片画布上芯片网络节点的摆放视作问题，并训练代理人生成以往未见芯片块的优化布局，最终旨在最小化能耗、性能与面积（PPA）。实验结果表明，该方法可在 6 小时内生成可与人工专家相媲美的布局。

Apr, 2020

芯片设计中联合学习解决放置和路由问题

通过深度强化学习方法 DeepPlace 和 DeepPR，结合梯度优化和强化学习，编码输入宏单元的全局图层和本地节点层信息的多视图嵌入模型，并通过鼓励探索的随机网络蒸馏方法，有助于解决现代芯片设计过程中的放置和路由问题。

Oct, 2021

使用强化学习实现硬件木马注入

本文利用强化学习 (Reinforcement Learning，RL) 自动化硬件特洛伊（Hardware Trojan, HT）嵌入过程，以消除制约 HT 检测方法成果的人为偏见。作者开发的工具集可以将组合 HT 插入 ISCAS-85 基准套件，具备 HT 大小和触发条件的变化性，并证明了其效果高，输入覆盖率高达 100％，所插入的 HT 具有最小的体积和罕有的激活概率。

Apr, 2022

基于深度强化学习的 FPGA 分而治之布局

本文介绍了学习在可编程门阵列（FPGA）中放置逻辑块的问题和一种基于学习的方法，通过强化学习（RL）来最小化线长，同时提出了一种新颖的分解方法以解决在芯片上放置多个块时的大搜索空间问题。实证实验评估了学习和分解范式在 FPGA 放置任务中的有效性。

Apr, 2024

基于强化学习的人类约束下的直角宏放置

该研究提出了一种利用 Google 的电路训练方法 (G-CT) 的方法，提供了一种基于学习的宏放置器，不仅支持放置矩形案例，而且遵循重要的人类设计原则，实验证明了该框架在实现功耗 - 性能 - 面积（PPA）指标上的有效性和与人工干预产生的高质量放置的可比性，并且该方法显示出解决不同宏形状和布局区域的潜力。

Nov, 2023

网络中的迷信：深度强化学习玩欺骗性游戏

本研究通过在四个具有欺骗性的游戏中测试广泛使用的异步 Actor-Critic 算法来更好地表征深度强化学习中失败的模式和原因，并发现这些游戏可靠地欺骗深度强化学习器，进一步提高这些算法的应用价值。

Aug, 2019

使用强化学习控制商用冷却系统

本文介绍了 DeepMind 与谷歌最近关于强化学习在商业制冷系统控制方面的最新工作的技术概述。通过在谷歌数据中心更加高效地冷却的专业知识为基础，在与楼宇管理系统供应商特兰科技的合作中，在两个真实世界的设施上进行了实时实验，希望我们描述这些挑战并针对这些挑战调整我们的强化学习系统，使得在两个实验场所分别节能约 9％和 13％。

Nov, 2022

现实世界强化学习挑战的经验研究

本文针对强化学习在实际问题中难以部署的问题，提出了一系列的挑战，并通过 Markov 决策过程定义这些挑战并分析其影响，同时探讨了一些现有的解决方法。为了验证算法的可部署性，我们提出并开源了 realworldrl-suite 套件作为一个基准测试集。

Mar, 2020

使用深度强化学习技术伪造网络物理系统

本文介绍了采用 DRL 技术来缩短模拟验证在 CPS 中缺陷检测和 falsification 过程中所需的时间的方法，并给出了初步的评估结果。

May, 2018