强化学习在定向控制器合成中的扩展应用

MMOct, 2022

强化学习在定向控制器合成中的扩展应用

Scaling Directed Controller Synthesis via Reinforcement Learning

Tomás Delgado, Víctor Braberman, Sebastian Uchitel

TL;DR本研究提出使用强化学习基于状态特征学习启发式启发式方法且优化了 Deep Q-Network，以用于解决离散事件系统中的无阻塞属性，实现在小规模问题上的学习推广到更大规模问题实例，结果表明其效果更好。

Abstract

directed controller synthesis technique finds solutions for the non-blocking property in discrete event systems by exploring a reduced portion of the exponentially big state space, using best-first search. Aiming

directed controller synthesis non-blocking property discrete event systems reinforcement learning heuristics

发现论文，激发创造

DRiLLS: 深度强化学习用于逻辑综合

提出了一种基于强化学习的方法，自动化优化逻辑综合过程，通过训练 Actor Critic（A2C）智能体来实现无人工干预的设计优化，取得了较好的优化结果。

Nov, 2019

基于深度强化学习策略的分层控制器合成

我们提出了一种新颖的方法来解决以马尔可夫决策过程（MDP）建模的环境的控制器设计问题。具体而言，我们考虑了一个层次 MDP，该图的每个顶点由一个名为 “房间” 的 MDP 填充。我们首先应用深度强化学习（DRL）来获取每个房间的低级策略，适用于未知结构的大型房间。然后，我们应用反应合成来获取一个高级规划器，该规划器选择在每个房间中执行哪个低级别策略。在综合规划器中的核心挑战是对房间建模的需求。我们通过开发一种 DRL 过程来训练简洁的 “潜在” 策略以及对其性能的 PAC 保证来解决这一挑战。与以前的方法不同，我们的方法避开了模型蒸馏步骤。我们的方法解决了 DRL 中稀疏奖励的问题，并实现了低级策略的可重用性。我们通过一个案例研究展示了可行性，该研究涉及在移动障碍物中的智能体导航。

Feb, 2024

使用无模型强化学习从线性时态逻辑规范合成控制

本文提出了一种强化学习框架，以从在一个未知的随机环境中，根据给定的线性时间逻辑（LTL）规范合成控制策略，该环境可以被建模为一个马尔可夫决策过程（MDP）。我们学习一种策略，最大化满足 LTL 公式的概率，引入一种新的、基于 LTL 公式的奖励和路径相关的折扣机制，使得（i）最优策略有效地最大化了满足 LTL 目标的概率，（ii）使用这些奖励和折扣因子的无模型强化学习算法保证收敛到这样的策略。最后，我们在两个运动规划案例研究中展示了我们基于强化学习的合成方法的适用性。

Sep, 2019

强化学习用于带有动作约束的任务规定

本文运用离散事件系统监控控制理论的概念，提出一种方法用于在有限状态的马尔可夫决策过程中，学习最优控制策略，并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。

Jan, 2022

DeepSynth：深度强化学习中任务自动划分的自动机合成

DeepSynth 是一种有效训练深度强化学习代理的方法，可在奖励稀疏和非 Markovian 的情况下实现，同时也需要实现未知的高级目标序列。该方法利用合成紧凑自动机的新算法自动发现这种序列结构，并使用环境的跟踪数据合成一个可解释的自动机，从而为控制策略的生成提供指导，并且相较于现有方法在 Montezuma's Revenge 等实验中在策略合成所需的迭代次数上获得了两个数量级的降低，同时也能显著提高可扩展性。

Nov, 2019

强化学习因果发现

使用强化学习和编码器 - 解码器模型进行因果发现，生成图中的邻接矩阵以计算奖励，结合预定义分数函数和惩罚项强制保持无环性，提高图搜索能力和灵活性。

Jun, 2019

学习违反最小的连续控制以满足不可行的线性时间逻辑规范

本文研究了基于深度强化学习的模型无关框架来解决复杂高级任务下的连续时间控制综合问题，并提出了一种基于采样路径规划算法来满足要求的方案，旨在降低深度强化学习在解决长期任务时的局限性和探索复杂环境问题

Oct, 2022

强化学习引导下的程序合成树搜索

本文提出了一种新的程序合成方法，将寻找最优程序的问题转化为基于强化学习的马尔科夫决策过程，并将这种方法应用于浮点数 RISC-V 汇编语言的子集上，并结合基于搜索技术的优先搜索树，证明了我们的方法相较于其他基线方法的优越性

Jun, 2018

使用强化学习学习如何导航合成可达的化学空间

本研究提出了一种基于增强学习框架的新型前向合成模型 (PGFS)，可以解决化学分子结构的可合成性和合成路线问题，该模型可以为机器学习的药物设计提供一个有挑战性的基础测试平台。

Apr, 2020

逻辑约束强化学习

本篇研究提出了第一种基于无模型的强化学习算法，用于综合一个未知的马尔可夫决策过程，并满足线性时间性质的要求。我们还展示了这个算法的性能通过一组数值实例进行了评估，并发现所提出的算法相比现有方法在合成所需的迭代次数方面有一个数量级的改进。

Jan, 2018