利用无模型强化学习尽快满足形式规范

Apr, 2023

利用无模型强化学习尽快满足形式规范

Fulfilling Formal Specifications ASAP by Model-free Reinforcement Learning

Mengyu Liu, Pengyuan Lu, Xin Chen, Fanxin Kong, Oleg Sokolsky...

TL;DR提出了 ASAP-Phi 模型无需预设的强化学习框架，通过识别不符合正式规范的量化语义奖励来促使智能体尽快满足规范，配合使用 actor-critic 类算法对其进行训练，经过大量实验和基准测试，能够在 97% 的测试用例中找到足够快的轨迹并击败基线模型。

Abstract

We propose a model-free reinforcement learning solution, namely the ASAP-Phi framework, to encourage an agent to fulfill a formal specification ASAP. The framework leverages a piece-wise →

reinforcement learning formal specification reward function actor-critic benchmark

发现论文，激发创造

ASAP: 复杂机器人装配的自动序列规划与物理可行性

ASAP 是一个基于物理规则的计划方法，能够自动生成复杂产品组装的物理可行序列。ASAP 通过考虑重力、局部支撑等因素，利用高效的树搜索算法确定组装序列，具备优秀的物理逼真性能，并适用于模拟和真实世界机器人设置。

Sep, 2023

面向符号自动机编码目标的无模型强化学习

本文提出使用符号自动机的形式规范，来代替马尔可夫奖励，并定义了使用潜在奖励的策略，来提高强化学习的收敛性。

Feb, 2022

自适应技能、自适应分区（ASAP）

介绍了自适应技能（ASAP）框架，它能够学习技能和如何应用技能，并能够通过适应其中应用现有学习技能的位置来解决相关新任务，同时证明了其在自然条件下收敛到局部最优解的能力，相关的 RoboCup 实验也表明了它学习如何重复利用技能以及用比每个任务都从头解决消耗的经验更少的能力来解决多个任务。

Feb, 2016

受限马尔科夫决策过程中的安全策略改进

该研究提出了一种解决增强学习自动合成策略的算法，该算法通过解决奖励形状设计和安全策略更新等挑战来实现，同时使用基于模型的 RL 算法来有效地利用我们收集的数据，并在标准控制基准中展示了其有效性和鲁棒性。

Oct, 2022

强化学习规范转换框架

提出了一个形式框架，为定义不同形式目标的 RL 任务之间的转换提供了形式化定义，研究了这种转换的保持最优策略、收敛和稳健性的概念，证明了从 LTL 规范到基于奖励的规范的某些缩减不存在，证明了 RL 算法不存在 PAC-MDP 保证安全规范。

Oct, 2021

带有不确定规格的规划 (PUnS)

本文提出了一种名为 PUnS 的规划方法，可解决非 Markovian 规范的挑战，它们被表达为线性时间逻辑（LTL）公式的信念。该方法可以用于应对许多现实应用中的模糊任务规范，我们提出了四个标准来捕捉不同应用程序的规范信念的语义，最终，我们演示了我们的方法，通过机器人从人类演示中推断任务规范来自动设置晚餐桌。

Jun, 2019

深度强化学习的异步方法

提出一种使用异步梯度下降法优化深度神经网络控制器的深度强化学习框架，演示了四种标准强化学习算法的异步变体，并表明并行 actor-learner 对训练具有稳定作用。其中最佳表现的方法，即 actor-critic 的异步变体，在 Atari 领域超越了现有的最佳表现，并且仅在单个多核 CPU 上训练一半的时间而不是 GPU。此外，还演示了异步 actor-critic 成功处理了各种连续运动控制问题以及使用视觉输入导航随机 3D 迷宫的新任务。

Feb, 2016

物理符号优化

我们提出了一个框架来约束自动顺序生成方程式以通过构造符合量纲分析规则。结合增强学习，我们构建了 Phi-SO，一种从物理数据中恢复分析函数的物理符号优化方法，利用单位约束。我们的符号回归算法在已知物理单位的情况下取得了最先进的结果，在存在噪音（超过 0.1%）的情况下在 SRBench 的 Feynman 基准测试中表现出色，并且即使在存在显著（10%）级别的噪音下也表现出弹性。

Dec, 2023

由时序逻辑信号规范引导的多智能体强化学习

本论文提出了一种新的基于 STL 模板的多智能体强化学习算法以指导奖励设计，实验证明相比没有 STL 指导的情况下，算法能够显著提高多智能体系统的性能和安全性。

Jun, 2023

基于时序逻辑奖励塑形的强化学习分布式控制

本文提出了一个基于计算框架的分布式控制策略合成方法，用于处理存在部分观测的异质机器人团队，旨在满足 Truncated Linear Temporal Logic（TLTL）规范，其方法将综合问题表述为一个随机博弈，并采用策略图方法为每个机器人寻找具有内存的控制策略，模拟结果表明其解决方案的有效性和奖励塑形的有效性。

Mar, 2022