基于逻辑约束强化学习的认证策略合成

Sep, 2022

基于逻辑约束强化学习的认证策略合成

LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement Learning

Hosein Hasanbeig, Daniel Kroening, Alessandro Abate

TL;DRLCRL 使用 Limit Deterministic Buchi Automata（LDBA）来表达给定的线性时间规范，并利用 LDBA 结构来实时塑造强化学习算法的奖励函数。在适当假设下，理论保证强化学习算法收敛到最优策略，最大化满足概率。案例研究表明，相对于传统 RL 方法，由于 LDBA 引导的探索和 LCRL 的无模型架构，我们观察到 CCRL 的鲁棒性表现更好，而且在可应用于 LTL 规范的情况下，性能也得到了良好的扩展。

Abstract

LCRL is a software tool that implements model-free reinforcement learning (RL) algorithms over unknown markov decision processes (MDPs), synthesising policies that satisfy a given →

reinforcement learning markov decision processes linear temporal specification optimal policy ldba

发现论文，激发创造

逻辑约束强化学习

本篇研究提出了第一种基于无模型的强化学习算法，用于综合一个未知的马尔可夫决策过程，并满足线性时间性质的要求。我们还展示了这个算法的性能通过一组数值实例进行了评估，并发现所提出的算法相比现有方法在合成所需的迭代次数方面有一个数量级的改进。

Jan, 2018

强化学习用于具有概率满足保证的时间逻辑控制合成

本研究提出一种基于强化学习的控制策略综合算法，用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机，再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练，从而生成满足概率的最大值。

Sep, 2019

使用无模型强化学习从线性时态逻辑规范合成控制

本文提出了一种强化学习框架，以从在一个未知的随机环境中，根据给定的线性时间逻辑（LTL）规范合成控制策略，该环境可以被建模为一个马尔可夫决策过程（MDP）。我们学习一种策略，最大化满足 LTL 公式的概率，引入一种新的、基于 LTL 公式的奖励和路径相关的折扣机制，使得（i）最优策略有效地最大化了满足 LTL 目标的概率，（ii）使用这些奖励和折扣因子的无模型强化学习算法保证收敛到这样的策略。最后，我们在两个运动规划案例研究中展示了我们基于强化学习的合成方法的适用性。

Sep, 2019

基于 LTL 规约的样本高效无模型强化学习及最优性保证

本研究提出一种基于强化学习的模型自由优化方法来学习行为策略，以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制，在各种 MDP 环境中进行实验，证明了其具有改进的样本效率和最优策略收敛性。

May, 2023

强化学习规范转换框架

提出了一个形式框架，为定义不同形式目标的 RL 任务之间的转换提供了形式化定义，研究了这种转换的保持最优策略、收敛和稳健性的概念，证明了从 LTL 规范到基于奖励的规范的某些缩减不存在，证明了 RL 算法不存在 PAC-MDP 保证安全规范。

Oct, 2021

一种基于学习的方法，用于控制合成线性时间逻辑规范的马尔可夫决策过程

使用学习理论中的技术，通过构建包含确定性 Rabin 自动机的乘积 MDP，其奖励函数来源于 Rabin 自动机的接受条件，即可合成满足线性时态逻辑（LTL）规范的控制策略，该方法在交通控制案例研究中证明可以产生合理的控制策略，即使无法保证满足 LTL 规范。

Sep, 2014

模型基深度强化学习算法框架及其理论保证

本文提出了一种新的算法框架来设计和分析具有理论保证的基于模型的强化学习算法，该框架将不确定性原则扩展到非线性动态模型，其中模型 SLBO 在连续控制基准任务上实现了最先进的性能。

Jul, 2018

面向任务驱动的探索，加速具有时态逻辑任务规范的深度强化学习

通过自动机表示 LTL 任务以及部分模拟未知系统动力学的神经网络，我们提出了一种新颖的深度强化学习（DRL）算法，其样本效率得以提高，能够更快速地学习控制策略，以在未知环境中的机器人导航任务中提高效率。

Nov, 2023

神经逻辑强化学习

本文提出了一种名为神经逻辑强化学习（NLRL）的新算法，基于策略梯度方法和可微分归纳逻辑编程，通过一阶逻辑来表示强化学习中的策略，解决了深度神经网络难以解释和学习泛化能力低的问题。实验表明，该算法可以在不同的环境下归纳出解释性强且性能接近最优的策略。

Apr, 2019

深度策略优化与时序逻辑约束

我们的研究通过将任务规范为线性时间逻辑（LTL）目标并优化额外的标量奖励，提出了一种增强学习代理的任务说明方法。我们的方法将问题转化为单一优化目标，并通过引入 Cycle Experience Replay（CyclER）解决了 LTL 引导的深度增强学习政策的稀疏性问题。实验证明了 CyclER 在连续和离散实验领域中发现性能优越的深度增强学习政策的有效性。

Apr, 2024