强化学习规范转换框架
本文提出了一种强化学习框架,以从在一个未知的随机环境中,根据给定的线性时间逻辑(LTL)规范合成控制策略,该环境可以被建模为一个马尔可夫决策过程(MDP)。我们学习一种策略,最大化满足 LTL 公式的概率,引入一种新的、基于 LTL 公式的奖励和路径相关的折扣机制,使得(i)最优策略有效地最大化了满足 LTL 目标的概率,(ii)使用这些奖励和折扣因子的无模型强化学习算法保证收敛到这样的策略。最后,我们在两个运动规划案例研究中展示了我们基于强化学习的合成方法的适用性。
Sep, 2019
本研究提出一种基于强化学习的模型自由优化方法来学习行为策略,以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制,在各种 MDP 环境中进行实验,证明了其具有改进的样本效率和最优策略收敛性。
May, 2023
本研究提出一种基于强化学习的控制策略综合算法,用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机,再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练,从而生成满足概率的最大值。
Sep, 2019
使用学习理论中的技术,通过构建包含确定性 Rabin 自动机的乘积 MDP,其奖励函数来源于 Rabin 自动机的接受条件,即可合成满足线性时态逻辑(LTL)规范的控制策略,该方法在交通控制案例研究中证明可以产生合理的控制策略,即使无法保证满足 LTL 规范。
Sep, 2014
本篇研究提出了第一种基于无模型的强化学习算法,用于综合一个未知的马尔可夫决策过程,并满足线性时间性质的要求。我们还展示了这个算法的性能通过一组数值实例进行了评估,并发现所提出的算法相比现有方法在合成所需的迭代次数方面有一个数量级的改进。
Jan, 2018
提出了一种可验证和组合强化学习的框架,其中包含一组学习单独子任务的子系统,并填充入标准任务的高层模型,将各个子任务组合成全部任务,成功证明了该框架的实用性和有效性。
Jun, 2021
本文讨论了在 Markov 决策过程中,使用 LTL 的公式作为代理规划的规范,通过形成多目标优化问题,从 MDP 中演示的行为轨迹中推断 LTL 规范,利用遗传编程解决该问题的有效性进行了证明。
Oct, 2017
本文提出了一个基于计算框架的分布式控制策略合成方法,用于处理存在部分观测的异质机器人团队,旨在满足 Truncated Linear Temporal Logic(TLTL)规范,其方法将综合问题表述为一个随机博弈,并采用策略图方法为每个机器人寻找具有内存的控制策略,模拟结果表明其解决方案的有效性和奖励塑形的有效性。
Mar, 2022
介绍了一种 RL 任务形式化的方法,通过简单的构造实现了不同任务设置的统一,包括状态转移折扣的概括;并拓展了标准学习构造和部分理论结果,提供了一个可理解和可靠的形式化框架来构建理论和简化算法使用和开发。
Sep, 2016