一种基于策略搜索的时间逻辑指定强化学习任务方法
本文提出了 Truncated Linear Temporal Logic (TLTL) 以及与之相应的鲁棒性度量作为奖励函数的强化学习方法,用以解决机器人应用中复杂任务的学习问题。在仿真实验和 Baxter 机器人的任务中,表现出了优异的鲁棒性能。
Dec, 2016
本文提出了一个基于计算框架的分布式控制策略合成方法,用于处理存在部分观测的异质机器人团队,旨在满足 Truncated Linear Temporal Logic(TLTL)规范,其方法将综合问题表述为一个随机博弈,并采用策略图方法为每个机器人寻找具有内存的控制策略,模拟结果表明其解决方案的有效性和奖励塑形的有效性。
Mar, 2022
本研究提出一种基于强化学习的控制策略综合算法,用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机,再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练,从而生成满足概率的最大值。
Sep, 2019
我们的研究通过将任务规范为线性时间逻辑(LTL)目标并优化额外的标量奖励,提出了一种增强学习代理的任务说明方法。我们的方法将问题转化为单一优化目标,并通过引入 Cycle Experience Replay(CyclER)解决了 LTL 引导的深度增强学习政策的稀疏性问题。实验证明了 CyclER 在连续和离散实验领域中发现性能优越的深度增强学习政策的有效性。
Apr, 2024
通过将描述高层任务目标的时间逻辑规范编码为图形来定义基于时间的度量,以改进推断奖励和策略的质量,实验表明我们的框架通过极大地提高学习控制策略所需的演示数量,克服了之前文献的缺点。
Nov, 2023
本文介绍了一组用于政策解释的线性时态逻辑公式,重点是通过这些公式解释政策所实现的最终目标和执行过程中的先决条件。这些基于线性时态逻辑的解释具有结构化表示,特别适用于局部搜索技术。通过模拟夺旗环境显示了我们提出的方法的有效性。最后,提出了未来研究的方向。
Sep, 2023
通过自动机表示 LTL 任务以及部分模拟未知系统动力学的神经网络,我们提出了一种新颖的深度强化学习(DRL)算法,其样本效率得以提高,能够更快速地学习控制策略,以在未知环境中的机器人导航任务中提高效率。
Nov, 2023
本文提出了一种强化学习框架,以从在一个未知的随机环境中,根据给定的线性时间逻辑(LTL)规范合成控制策略,该环境可以被建模为一个马尔可夫决策过程(MDP)。我们学习一种策略,最大化满足 LTL 公式的概率,引入一种新的、基于 LTL 公式的奖励和路径相关的折扣机制,使得(i)最优策略有效地最大化了满足 LTL 目标的概率,(ii)使用这些奖励和折扣因子的无模型强化学习算法保证收敛到这样的策略。最后,我们在两个运动规划案例研究中展示了我们基于强化学习的合成方法的适用性。
Sep, 2019
我们提出了一个能够逐步扩展解释性时间逻辑规则集来解释时间事件发生的框架。利用时间点过程建模和学习框架,规则内容和权重将逐渐优化,直到观察的事件序列的似然性最佳。我们的算法通过在主问题中更新当前规则集的权重,并在子问题中搜索和包含新规则来增加似然性。主问题被定义为凸问题,使用连续优化方法相对容易求解,而子问题需要在庞大的组合规则谓词和关系空间中进行搜索。为了克服这一挑战,我们提出了一种神经搜索策略,通过学习生成新规则内容的一系列动作。该策略参数将使用强化学习框架进行端到端训练,其中奖励信号可以通过评估子问题目标来高效查询。训练好的策略可以以可控的方式生成新规则。我们在合成和真实的医疗数据集上评估了我们的方法,取得了有前景的结果。
Aug, 2023