强化学习中的时态逻辑公式转移
本文提出了 Truncated Linear Temporal Logic (TLTL) 以及与之相应的鲁棒性度量作为奖励函数的强化学习方法,用以解决机器人应用中复杂任务的学习问题。在仿真实验和 Baxter 机器人的任务中,表现出了优异的鲁棒性能。
Dec, 2016
通过将 Transformer 模块与强化学习相结合,开发了一个基于二次 Transformer 引导的时间逻辑框架(T2TL),以学习并执行各种自适应控制任务。其采用的 LTL 指令通过 co-safe LTL 指定,可以将复杂任务分解为可学习的子目标,从而将非马尔可夫奖励决策过程转换为马尔可夫过程,并通过同时学习多个子任务来提高采样效率。
Sep, 2022
本文讨论了在 Markov 决策过程中,使用 LTL 的公式作为代理规划的规范,通过形成多目标优化问题,从 MDP 中演示的行为轨迹中推断 LTL 规范,利用遗传编程解决该问题的有效性进行了证明。
Oct, 2017
本研究探讨了强化学习中的表征传递问题,提出了一种基于预训练和生成访问的新方法,可以帮助在源任务中发现一个共享表征来快速收敛到一个接近最优策略的目标任务中。
May, 2022
通过将描述高层任务目标的时间逻辑规范编码为图形来定义基于时间的度量,以改进推断奖励和策略的质量,实验表明我们的框架通过极大地提高学习控制策略所需的演示数量,克服了之前文献的缺点。
Nov, 2023
本文提出了一个基于计算框架的分布式控制策略合成方法,用于处理存在部分观测的异质机器人团队,旨在满足 Truncated Linear Temporal Logic(TLTL)规范,其方法将综合问题表述为一个随机博弈,并采用策略图方法为每个机器人寻找具有内存的控制策略,模拟结果表明其解决方案的有效性和奖励塑形的有效性。
Mar, 2022
基于逻辑规范引导的动态任务采样(LSTS)是一个新颖的方法,不像以前的方法,LSTS 不需要关于环境动态或奖励机器的信息,并且通过动态采样有希望导致成功目标策略的任务,来引导代理从初始状态到目标状态。在格局世界的评估中,LSTS 在复杂的顺序决策问题上表现出了比最先进的 RM 和自动机引导的 RL 基线更好的时间到达阈值性能,并且在部分可观测的机器人任务和连续控制机器人操纵任务中也比 RM 和自动机引导的 RL 基线表现出更高的样本效率。
Feb, 2024
介绍了一种将深度强化学习与时间逻辑相结合的神经符号代理,以实现形式化规定指令的系统性零射 (就是指未曾见过的情况)。研究证明,卷积层的架构在泛化新指令时发挥了关键作用,并证明通过学习少量训练样例,可以从抽象操作符中实现系统化的学习。
Jun, 2020
本研究提出一种基于强化学习的控制策略综合算法,用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机,再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练,从而生成满足概率的最大值。
Sep, 2019