时间逻辑模仿:从演示中学习满足规划的动作策略
本文讨论了在 Markov 决策过程中,使用 LTL 的公式作为代理规划的规范,通过形成多目标优化问题,从 MDP 中演示的行为轨迹中推断 LTL 规范,利用遗传编程解决该问题的有效性进行了证明。
Oct, 2017
本文研究了基于深度强化学习的模型无关框架来解决复杂高级任务下的连续时间控制综合问题,并提出了一种基于采样路径规划算法来满足要求的方案,旨在降低深度强化学习在解决长期任务时的局限性和探索复杂环境问题
Oct, 2022
通过自动机表示 LTL 任务以及部分模拟未知系统动力学的神经网络,我们提出了一种新颖的深度强化学习(DRL)算法,其样本效率得以提高,能够更快速地学习控制策略,以在未知环境中的机器人导航任务中提高效率。
Nov, 2023
本研究提出一种基于强化学习的模型自由优化方法来学习行为策略,以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制,在各种 MDP 环境中进行实验,证明了其具有改进的样本效率和最优策略收敛性。
May, 2023
利用大型语言模型对物理领域中的常识推理进行基础性指导和解决工作,通过任务结构和约束的搜索,使用人类示范和模拟干扰生成覆盖训练数据集,并通过解释性学习方法来提高模仿学习的可解释性和反应性。
Mar, 2024
我们的研究通过将任务规范为线性时间逻辑(LTL)目标并优化额外的标量奖励,提出了一种增强学习代理的任务说明方法。我们的方法将问题转化为单一优化目标,并通过引入 Cycle Experience Replay(CyclER)解决了 LTL 引导的深度增强学习政策的稀疏性问题。实验证明了 CyclER 在连续和离散实验领域中发现性能优越的深度增强学习政策的有效性。
Apr, 2024
通过使用可期折扣技术的价值函数代理来找到最大概率满足 LTL 规范的策略,以及通过对不同满足 LTL 规范的方法进行反事实推理来生成脱离政策的数据的新体验重演方法,该论文在离散和连续状态操作空间中进行的实验证实了反事实经验回放方法的有效性。
Mar, 2023
本文介绍了一组用于政策解释的线性时态逻辑公式,重点是通过这些公式解释政策所实现的最终目标和执行过程中的先决条件。这些基于线性时态逻辑的解释具有结构化表示,特别适用于局部搜索技术。通过模拟夺旗环境显示了我们提出的方法的有效性。最后,提出了未来研究的方向。
Sep, 2023
本文提出了一种强化学习框架,以从在一个未知的随机环境中,根据给定的线性时间逻辑(LTL)规范合成控制策略,该环境可以被建模为一个马尔可夫决策过程(MDP)。我们学习一种策略,最大化满足 LTL 公式的概率,引入一种新的、基于 LTL 公式的奖励和路径相关的折扣机制,使得(i)最优策略有效地最大化了满足 LTL 目标的概率,(ii)使用这些奖励和折扣因子的无模型强化学习算法保证收敛到这样的策略。最后,我们在两个运动规划案例研究中展示了我们基于强化学习的合成方法的适用性。
Sep, 2019
通过将描述高层任务目标的时间逻辑规范编码为图形来定义基于时间的度量,以改进推断奖励和策略的质量,实验表明我们的框架通过极大地提高学习控制策略所需的演示数量,克服了之前文献的缺点。
Nov, 2023