假设保证强化学习

AAAIDec, 2023

Assume-Guarantee Reinforcement Learning

Milad Kazemi, Mateo Perez, Fabio Somenzi, Sadegh Soudjani, Ashutosh Trivedi...

TL;DR我们提出了一种模块化的强化学习方法，其中环境由并行演化的简单组件组成，通过对邻近组件行为进行假设并提供自身行为保证来独立合成每个组件的最优控制器。我们通过将假设 - 保证合同表达为正则语言并自动将其转换为 RL 中使用的标量奖励，结合每个组件的满足概率，提供了对完整系统满足概率的下界，从而通过解决每个组件的 Markov 博弈产生了最大化该下界的控制器。

Abstract

We present a modular approach to \emph{reinforcement learning} (RL) in environments consisting of simpler components evolving in parallel. A monolithic view of such modular environments may be prohibitively large

reinforcement learning modular approach assume-guarantee paradigm regular languages markov game

发现论文，激发创造

强化学习用于具有概率满足保证的时间逻辑控制合成

本研究提出一种基于强化学习的控制策略综合算法，用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机，再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练，从而生成满足概率的最大值。

Sep, 2019

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

可验证的组合性强化学习系统

我们提出了一个可验证和组合的强化学习框架，其中一组强化学习子系统被组合起来以实现整体任务，子系统之间通过定义接口和部分可观察性相互交互。实验结果展示了该框架在各种环境中的新颖功能。

Sep, 2023

可控行为的弱监督强化学习

本文介绍了一种使用弱监督来自动区分语义明确的任务子空间和无意义的 “杂草” 任务空间的方法。研究表明，这种学习到的子空间可实现高效探索，并提供了一种捕捉状态间距离的表示形式。该方法在多种具有挑战性的基于视觉的连续控制问题中实现了显著的性能提升，特别是在环境复杂性增加的情况下。

Apr, 2020

模型基深度强化学习算法框架及其理论保证

本文提出了一种新的算法框架来设计和分析具有理论保证的基于模型的强化学习算法，该框架将不确定性原则扩展到非线性动态模型，其中模型 SLBO 在连续控制基准任务上实现了最先进的性能。

Jul, 2018

带有正式保证的随机控制系统中的组合策略学习

通过学习神经网络策略及其与 rech-avoid 超融合 (Probabilistic Reach-Avoid Supermartingales, RASM) 的组合，提供了一种新的方法来保证复杂控制任务中神经网络策略的行为满足特定规范的概率，并在 Stochastic Nine Rooms 环境中进行了评估。

Dec, 2023

可验证和组合的强化学习系统

提出了一种可验证和组合强化学习的框架，其中包含一组学习单独子任务的子系统，并填充入标准任务的高层模型，将各个子任务组合成全部任务，成功证明了该框架的实用性和有效性。

Jun, 2021

强化学习与概率推断的理解

本研究因 RL 作为推理方法的短处而对其进行澄清，RL 代理人必须考虑其行动对未来奖励和观察结果的影响，即探索和开发之间的权衡。我们证明了‘RL 作为推理’近似在基本问题中表现不佳，但我们展示了通过小修正该框架可以获得可靠的算法，该算法与最近提出的 K-learning 等价，我们进一步将其与汤普森取样联系起来。

Jan, 2020

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

基于时序逻辑奖励塑形的强化学习分布式控制

本文提出了一个基于计算框架的分布式控制策略合成方法，用于处理存在部分观测的异质机器人团队，旨在满足 Truncated Linear Temporal Logic（TLTL）规范，其方法将综合问题表述为一个随机博弈，并采用策略图方法为每个机器人寻找具有内存的控制策略，模拟结果表明其解决方案的有效性和奖励塑形的有效性。

Mar, 2022