利用无模型强化学习尽快满足形式规范
ASAP 是一个基于物理规则的计划方法,能够自动生成复杂产品组装的物理可行序列。ASAP 通过考虑重力、局部支撑等因素,利用高效的树搜索算法确定组装序列,具备优秀的物理逼真性能,并适用于模拟和真实世界机器人设置。
Sep, 2023
介绍了自适应技能(ASAP)框架,它能够学习技能和如何应用技能,并能够通过适应其中应用现有学习技能的位置来解决相关新任务,同时证明了其在自然条件下收敛到局部最优解的能力,相关的 RoboCup 实验也表明了它学习如何重复利用技能以及用比每个任务都从头解决消耗的经验更少的能力来解决多个任务。
Feb, 2016
该研究提出了一种解决增强学习自动合成策略的算法,该算法通过解决奖励形状设计和安全策略更新等挑战来实现,同时使用基于模型的 RL 算法来有效地利用我们收集的数据,并在标准控制基准中展示了其有效性和鲁棒性。
Oct, 2022
提出了一个形式框架,为定义不同形式目标的 RL 任务之间的转换提供了形式化定义,研究了这种转换的保持最优策略、收敛和稳健性的概念,证明了从 LTL 规范到基于奖励的规范的某些缩减不存在,证明了 RL 算法不存在 PAC-MDP 保证安全规范。
Oct, 2021
本文提出了一种名为 PUnS 的规划方法,可解决非 Markovian 规范的挑战,它们被表达为线性时间逻辑(LTL)公式的信念。该方法可以用于应对许多现实应用中的模糊任务规范,我们提出了四个标准来捕捉不同应用程序的规范信念的语义,最终,我们演示了我们的方法,通过机器人从人类演示中推断任务规范来自动设置晚餐桌。
Jun, 2019
提出一种使用异步梯度下降法优化深度神经网络控制器的深度强化学习框架,演示了四种标准强化学习算法的异步变体,并表明并行 actor-learner 对训练具有稳定作用。其中最佳表现的方法,即 actor-critic 的异步变体,在 Atari 领域超越了现有的最佳表现,并且仅在单个多核 CPU 上训练一半的时间而不是 GPU。此外,还演示了异步 actor-critic 成功处理了各种连续运动控制问题以及使用视觉输入导航随机 3D 迷宫的新任务。
Feb, 2016
我们提出了一个框架来约束自动顺序生成方程式以通过构造符合量纲分析规则。结合增强学习,我们构建了 Phi-SO,一种从物理数据中恢复分析函数的物理符号优化方法,利用单位约束。我们的符号回归算法在已知物理单位的情况下取得了最先进的结果,在存在噪音(超过 0.1%)的情况下在 SRBench 的 Feynman 基准测试中表现出色,并且即使在存在显著(10%)级别的噪音下也表现出弹性。
Dec, 2023
本论文提出了一种新的基于 STL 模板的多智能体强化学习算法以指导奖励设计,实验证明相比没有 STL 指导的情况下,算法能够显著提高多智能体系统的性能和安全性。
Jun, 2023
本文提出了一个基于计算框架的分布式控制策略合成方法,用于处理存在部分观测的异质机器人团队,旨在满足 Truncated Linear Temporal Logic(TLTL)规范,其方法将综合问题表述为一个随机博弈,并采用策略图方法为每个机器人寻找具有内存的控制策略,模拟结果表明其解决方案的有效性和奖励塑形的有效性。
Mar, 2022