LTL2Action:将 LTL 指令泛化到多任务 RL 中
本文提出了一种新的多任务 RL 算法,通过离线策略学习选项来实现任务完成的全局最优性,并通过训练基于子目标序列的多步价值函数来更有效地传递满足未来子目标的奖励,从而解决了在 RL 中学习 LTL 任务代价函数时的一些问题。实验结果表明,该方法在 LTL 广义化方面具有优势。
Dec, 2022
研究文本游戏在强化学习环境下的指令正确率,设计使用 Linear Temporal Logic 结构化语言支持时间上下文语义的指令,通过文字游戏的实验验证该结构化语言指令的有效性和优越性。
Nov, 2022
我们的研究通过将任务规范为线性时间逻辑(LTL)目标并优化额外的标量奖励,提出了一种增强学习代理的任务说明方法。我们的方法将问题转化为单一优化目标,并通过引入 Cycle Experience Replay(CyclER)解决了 LTL 引导的深度增强学习政策的稀疏性问题。实验证明了 CyclER 在连续和离散实验领域中发现性能优越的深度增强学习政策的有效性。
Apr, 2024
通过将 Transformer 模块与强化学习相结合,开发了一个基于二次 Transformer 引导的时间逻辑框架(T2TL),以学习并执行各种自适应控制任务。其采用的 LTL 指令通过 co-safe LTL 指定,可以将复杂任务分解为可学习的子目标,从而将非马尔可夫奖励决策过程转换为马尔可夫过程,并通过同时学习多个子任务来提高采样效率。
Sep, 2022
本文提出一种基于学习的方法,通过算法生成 LTL 公式,并将其转换为结构化英语进而利用现代大型语言模型的改写功能来合成自然语言命令,从而减少人工数据依赖,以 75%的准确率将自然语言命令翻译成 LTL 规范,并发现该翻译的公式能够用于长视距的,多阶段任务的规划(以 12D 四旋翼为例)。
Mar, 2023
该论文介绍了一种使用组合递归神经网络、输入为 LTL 公式的强化学习智能体,能够确定满足的行动,并且表现出了零 - shot 泛化的能力,它可以操作不同的任务而无需重新培训。
Jun, 2020
本文讨论了在 Markov 决策过程中,使用 LTL 的公式作为代理规划的规范,通过形成多目标优化问题,从 MDP 中演示的行为轨迹中推断 LTL 规范,利用遗传编程解决该问题的有效性进行了证明。
Oct, 2017
通过自动机表示 LTL 任务以及部分模拟未知系统动力学的神经网络,我们提出了一种新颖的深度强化学习(DRL)算法,其样本效率得以提高,能够更快速地学习控制策略,以在未知环境中的机器人导航任务中提高效率。
Nov, 2023
本研究提出一种基于强化学习的模型自由优化方法来学习行为策略,以最大化符合给定线性时态逻辑规范的概率。通过采用新型的产品 MDP、奖励结构和折扣机制,在各种 MDP 环境中进行实验,证明了其具有改进的样本效率和最优策略收敛性。
May, 2023
提出了一种新的用于马尔可夫决策过程的任务规范语言,其设计旨在改进奖励函数,成为独立于环境的语言。该语言是 LTL 的一种变体,被扩展为概率规范,可以在有限时间内学习逼近。提供了几个小环境,展示了我们的几何 LTL 语言的优势,说明了它如何简单地用于规范标准强化学习任务。
Apr, 2017