使用隐马尔可夫模型的自动机学习任务自动化增强学习
介绍了一种RL任务形式化的方法,通过简单的构造实现了不同任务设置的统一,包括状态转移折扣的概括;并拓展了标准学习构造和部分理论结果,提供了一个可理解和可靠的形式化框架来构建理论和简化算法使用和开发。
Sep, 2016
ISA是一种学习和利用强化学习中子目标的方法,通过交错强化学习和感知高级事件的子目标自动机的归纳来学习如何到达任务目标状态,该方法使用一种现有的逻辑编程系统,使这些子目标表示为基于常命题逻辑的逻辑公式,并保证了最少状态的自动机归纳和对称性破缺机制。在多个问题上的实验表明,该方法可用于学习成功的策略,并达到与人工预设子目标相当的平均奖励水平。
Sep, 2020
利用知识表示和自动机结构,本文提出了一种自动发现有用状态抽象的端对端算法,用于学习非Markov领域下优化策略,相较于最先进的强化学习算法,能够在更少的环境样本下得到更优的结果。
Jan, 2023
通过深度强化学习、自动化学习和马尔可夫决策过程等技术,学习出由自主智能体控制的环境模型,以解决复杂环境下的控制问题,并在多个强化学习基准环境中验证了方法的有效性。
Jun, 2023
我们提出了一种新颖的强化学习方法,用于实现基于LTL$_f$(有限轨迹线性时态逻辑)的非马尔可夫奖励,通过LTL$_f$到MDPs(马尔可夫决策过程)的线性复杂度编码,利用自动机结构(与LTL$_f$规范语义等价)的优先经验回放技术来改善训练过程,在多个引入非马尔可夫任务的基准问题上进行经验证明了我们方法的可行性和有效性。
Oct, 2023
我们提出了一种计数奖励自动机——一种能够模拟任何能以形式语言表示的奖励函数的有限状态机变体。与以前的方法不同,这些方法仅能表达任务为正则语言,而我们的框架允许通过无限制语法来描述任务。我们证明了一个配备这样抽象机器的代理能够解决比使用当前方法更多的任务。我们展示了这种表达能力的增加并不需要增加自动机的复杂性。我们提出了一系列利用自动机结构来提高样本效率的学习算法。我们展示了我们的方法在样本效率、自动机复杂性和任务完成方面优于竞争方法的实证结果。
Dec, 2023
通过学习奖励机制,将非马尔可夫奖励函数映射为等效的马尔可夫函数,证明了奖励机制相对于确定性有限状态自动机对于建模单一自动机中的奖励依赖性的重要性,并通过在Officeworld领域学习黑盒非马尔可夫奖励函数以及在Breakfastworld领域学习奖励之间的依赖关系的有效性来验证了我们的方法。
Jan, 2024
基于逻辑规范引导的动态任务采样(LSTS)是一个新颖的方法,不像以前的方法,LSTS不需要关于环境动态或奖励机器的信息,并且通过动态采样有希望导致成功目标策略的任务,来引导代理从初始状态到目标状态。在格局世界的评估中,LSTS在复杂的顺序决策问题上表现出了比最先进的RM和自动机引导的RL基线更好的时间到达阈值性能,并且在部分可观测的机器人任务和连续控制机器人操纵任务中也比RM和自动机引导的RL基线表现出更高的样本效率。
Feb, 2024