面向符号自动机编码目标的无模型强化学习
本文提出了Truncated Linear Temporal Logic (TLTL)以及与之相应的鲁棒性度量作为奖励函数的强化学习方法,用以解决机器人应用中复杂任务的学习问题。在仿真实验和Baxter机器人的任务中,表现出了优异的鲁棒性能。
Dec, 2016
本文提出了一种强化学习框架,以从在一个未知的随机环境中,根据给定的线性时间逻辑(LTL)规范合成控制策略,该环境可以被建模为一个马尔可夫决策过程(MDP)。我们学习一种策略,最大化满足LTL公式的概率,引入一种新的、基于LTL公式的奖励和路径相关的折扣机制,使得(i)最优策略有效地最大化了满足LTL目标的概率,(ii)使用这些奖励和折扣因子的无模型强化学习算法保证收敛到这样的策略。最后,我们在两个运动规划案例研究中展示了我们基于强化学习的合成方法的适用性。
Sep, 2019
本文提出ISA,使用归纳逻辑程序设计帮助学习强化学习中的子目标,建立了可自我更新的自动机模型。实验证明,通过使用学习到的自动机进一步增强奖励调整和多任务迁移学习,ISA能够在多种格局提供同样优秀的表现且对可观察事件数量的影响进行了分析。
Nov, 2019
ISA是一种学习和利用强化学习中子目标的方法,通过交错强化学习和感知高级事件的子目标自动机的归纳来学习如何到达任务目标状态,该方法使用一种现有的逻辑编程系统,使这些子目标表示为基于常命题逻辑的逻辑公式,并保证了最少状态的自动机归纳和对称性破缺机制。在多个问题上的实验表明,该方法可用于学习成功的策略,并达到与人工预设子目标相当的平均奖励水平。
Sep, 2020
本篇文章提出了一种特殊的POMDP优化问题,研究当使用Reward Machines作为奖励函数语言时,对于状态到符号语言的映射不确定的情况下,如何通过强化学习生成策略,并通过实验证明了这种方法的有效性和现有方法的局限性。
Nov, 2022
利用知识表示和自动机结构,本文提出了一种自动发现有用状态抽象的端对端算法,用于学习非Markov领域下优化策略,相较于最先进的强化学习算法,能够在更少的环境样本下得到更优的结果。
Jan, 2023
通过广泛比较17种强化学习目标规范形式的表达能力,我们发现不同形式主义存在多种限制,并未找到一种同时具有主导性表达能力和当前技术下优化简便性的形式主义。这些发现对策略优化和奖励学习有重要影响,并强调了未来研究在奖励学习方法中适应多种形式主义的需求,因为许多现有奖励学习方法隐含地假设所需目标可以用马尔可夫奖励来表达。我们的工作有助于更全面地了解不同强化学习目标规范形式的成本和收益。
Oct, 2023
基于逻辑规范引导的动态任务采样(LSTS)是一个新颖的方法,不像以前的方法,LSTS不需要关于环境动态或奖励机器的信息,并且通过动态采样有希望导致成功目标策略的任务,来引导代理从初始状态到目标状态。在格局世界的评估中,LSTS在复杂的顺序决策问题上表现出了比最先进的RM和自动机引导的RL基线更好的时间到达阈值性能,并且在部分可观测的机器人任务和连续控制机器人操纵任务中也比RM和自动机引导的RL基线表现出更高的样本效率。
Feb, 2024
本研究解决了非马尔可夫强化学习任务中的历史状态-动作对考量问题,提出了一种新颖的神经奖励机器(NRM)框架,能够在非符号非马尔可夫环境中进行推理和学习。NRM有效整合了半监督符号基础(SSSG)与强化学习,证明其能够在未掌握符号基础函数的情况下,运用高级符号知识并超越传统深度强化学习方法的性能。研究还提出了一种新算法,用于分析时间规范的基础性,这一方法效率比基线技术高出1000倍。
Aug, 2024