强化学习规范转换框架

Oct, 2021

A Framework for Transforming Specifications in Reinforcement Learning

Rajeev Alur, Suguman Bansal, Osbert Bastani, Kishor Jothimurugan

TL;DR提出了一个形式框架，为定义不同形式目标的 RL 任务之间的转换提供了形式化定义，研究了这种转换的保持最优策略、收敛和稳健性的概念，证明了从 LTL 规范到基于奖励的规范的某些缩减不存在，证明了 RL 算法不存在 PAC-MDP 保证安全规范。

Abstract

reactive synthesis algorithms allow automatic construction of policies to control an environment modeled as a markov decision process (MDP) that are optimal with respect to →

reactive synthesis algorithms markov decision process high-level temporal logic specifications reinforcement learning rl algorithms

发现论文，激发创造

使用无模型强化学习从线性时态逻辑规范合成控制

本文提出了一种强化学习框架，以从在一个未知的随机环境中，根据给定的线性时间逻辑（LTL）规范合成控制策略，该环境可以被建模为一个马尔可夫决策过程（MDP）。我们学习一种策略，最大化满足 LTL 公式的概率，引入一种新的、基于 LTL 公式的奖励和路径相关的折扣机制，使得（i）最优策略有效地最大化了满足 LTL 目标的概率，（ii）使用这些奖励和折扣因子的无模型强化学习算法保证收敛到这样的策略。最后，我们在两个运动规划案例研究中展示了我们基于强化学习的合成方法的适用性。

Sep, 2019

基于 LTL 规约的样本高效无模型强化学习及最优性保证

本研究提出一种基于强化学习的模型自由优化方法来学习行为策略，以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制，在各种 MDP 环境中进行实验，证明了其具有改进的样本效率和最优策略收敛性。

May, 2023

强化学习用于具有概率满足保证的时间逻辑控制合成

本研究提出一种基于强化学习的控制策略综合算法，用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机，再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练，从而生成满足概率的最大值。

Sep, 2019

一种基于学习的方法，用于控制合成线性时间逻辑规范的马尔可夫决策过程

使用学习理论中的技术，通过构建包含确定性 Rabin 自动机的乘积 MDP，其奖励函数来源于 Rabin 自动机的接受条件，即可合成满足线性时态逻辑（LTL）规范的控制策略，该方法在交通控制案例研究中证明可以产生合理的控制策略，即使无法保证满足 LTL 规范。

Sep, 2014

逻辑约束强化学习

本篇研究提出了第一种基于无模型的强化学习算法，用于综合一个未知的马尔可夫决策过程，并满足线性时间性质的要求。我们还展示了这个算法的性能通过一组数值实例进行了评估，并发现所提出的算法相比现有方法在合成所需的迭代次数方面有一个数量级的改进。

Jan, 2018

基于折扣线性时态逻辑的政策综合和强化学习

通过降低时间折扣，将 LTL 适用于 RL 并在 Markov 决策过程中综合策略，以解决小扰动敏感性问题。

May, 2023

可验证和组合的强化学习系统

提出了一种可验证和组合强化学习的框架，其中包含一组学习单独子任务的子系统，并填充入标准任务的高层模型，将各个子任务组合成全部任务，成功证明了该框架的实用性和有效性。

Jun, 2021

可解释的时序逻辑学徒学习

本文讨论了在 Markov 决策过程中，使用 LTL 的公式作为代理规划的规范，通过形成多目标优化问题，从 MDP 中演示的行为轨迹中推断 LTL 规范，利用遗传编程解决该问题的有效性进行了证明。

Oct, 2017

基于时序逻辑奖励塑形的强化学习分布式控制

本文提出了一个基于计算框架的分布式控制策略合成方法，用于处理存在部分观测的异质机器人团队，旨在满足 Truncated Linear Temporal Logic（TLTL）规范，其方法将综合问题表述为一个随机博弈，并采用策略图方法为每个机器人寻找具有内存的控制策略，模拟结果表明其解决方案的有效性和奖励塑形的有效性。

Mar, 2022

强化学习中任务规范的统一

介绍了一种 RL 任务形式化的方法，通过简单的构造实现了不同任务设置的统一，包括状态转移折扣的概括；并拓展了标准学习构造和部分理论结果，提供了一个可理解和可靠的形式化框架来构建理论和简化算法使用和开发。

Sep, 2016