通过应用强化学习算法,可以更好地解决逻辑综合中的局部最小值问题,从而实现对细胞面积等重要指标的显著优化。
Feb, 2023
本研究对逻辑综合的学习和搜索技术进行了彻底的研究,发现预训练代理器在面对全新设计时可能偏离轨道,从而对搜索轨迹产生不利影响。我们提出了 ABC-RL,这是一个经过精心调整的 α 参数,能够在搜索过程中熟练地调整来自预训练代理器的建议。基于与训练数据集的最近邻检索相似性分数计算得到的 ABC-RL 针对广泛的硬件设计提供了优越的综合方案。我们的发现展示了合成电路质量结果(QoR)的显著改进,与现有技术相比,提高了最高达 24.8% 的性能。此外,与当前最先进的方法相比,ABC-RL 在运行时间上实现了高达 9 倍的减少(iso-QoR)。
Jan, 2024
本研究提出使用强化学习基于状态特征学习启发式启发式方法且优化了 Deep Q-Network,以用于解决离散事件系统中的无阻塞属性,实现在小规模问题上的学习推广到更大规模问题实例,结果表明其效果更好。
Oct, 2022
本文介绍了如何使用双重 A3C 算法和神经网络来最大化智能体在未知环境中的奖励,并在 OpenAI Gym Atari 2600 游戏中超越了基准。
Mar, 2023
研究利用时序逻辑生成奖励对深度强化学习进行实时控制,并在多项复杂连续控制基准测试中证实了新模型相较于现有模型更为合适。
Dec, 2022
通过自动机表示 LTL 任务以及部分模拟未知系统动力学的神经网络,我们提出了一种新颖的深度强化学习(DRL)算法,其样本效率得以提高,能够更快速地学习控制策略,以在未知环境中的机器人导航任务中提高效率。
Nov, 2023
DeepSynth 是一种有效训练深度强化学习代理的方法,可在奖励稀疏和非 Markovian 的情况下实现,同时也需要实现未知的高级目标序列。该方法利用合成紧凑自动机的新算法自动发现这种序列结构,并使用环境的跟踪数据合成一个可解释的自动机,从而为控制策略的生成提供指导,并且相较于现有方法在 Montezuma's Revenge 等实验中在策略合成所需的迭代次数上获得了两个数量级的降低,同时也能显著提高可扩展性。
Nov, 2019
深度强化学习的关键问题包括忘记和样本效率低下,该研究通过发现并利用空间信息推导任务特定规则,提出了一个通用框架来帮助智能体在新环境中自主学习并增加适应速度。该框架的实现之一是基于规则驱动的深度 Q 学习代理,它在实验中表现出明显更强的抵抗新鲜事物和适应新情况的能力。
通过引入自动机蒸馏的形式的神经符号传递学习,以及静态传递和动态传递方法的使用,成功减少了找到各种决策任务的最佳策略所需的时间。
Oct, 2023
本文提出了一种采用深度强化学习方法解决装配序列规划(ASP)问题的方法,使用用户偏好和总装配时间作为奖励信号,并引入参数化行为来提高训练时间和样本效率。研究结果表明,深度强化学习与人类互动解决装配序列规划问题具有潜在的应用前景。
Apr, 2023