为强化学习引入子目标自动机
ISA 是一种学习和利用强化学习中子目标的方法,通过交错强化学习和感知高级事件的子目标自动机的归纳来学习如何到达任务目标状态,该方法使用一种现有的逻辑编程系统,使这些子目标表示为基于常命题逻辑的逻辑公式,并保证了最少状态的自动机归纳和对称性破缺机制。在多个问题上的实验表明,该方法可用于学习成功的策略,并达到与人工预设子目标相当的平均奖励水平。
Sep, 2020
提出了一种基于动态规划方程的强化学习框架,能够自然地解决多目标查询问题,并使用子目标树结构构建轨迹,从而扩展策略梯度法来预测子目标,应用于神经运动规划领域,与标准强化学习相比,取得了显著的改进。
Feb, 2020
提出一种新的强化学习(Reinforcement Learning)模型,具有可解释性且支持深层次子目标(subgoal hierarchies)的发现。该模型使用概率规则学习有关环境的信息,而(子)目标的策略则是它们的组合。学习无需奖励函数,只需提供主要目标,而目标的子目标被计算为状态的描述,如果先前达成这些描述,便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中,从而允许传感到重要的中间状态并相应地更新环境规则和策略。
Feb, 2022
本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法,可以应用于大规模的问题,实现了对环境模型的无需获取,用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。
Oct, 2018
该论文提出了一种从代理环境经验中学习非马尔可夫任务规范的新方法,可以将任务拆分为其构成子任务,提高了 RL 代理后续合成最优策略的速率,并提供了一个可解释的编码高级环境和任务特征的方式。
Aug, 2022
本文提出了一种新颖的少样本强化学习问题,其通过任务的子任务图描述一组子任务及其依赖关系,我们开发了一种元学习器,即消息传递子任务图推理器(MSGI),该学习器通过与环境交互推断任务的潜在参数,并采用上限置信界中得到启发的内在奖励以促进有效探索,实验结果表明该方法能够准确推断潜在任务参数, 并比现有的元强化学习和分层强化学习方法更有效地适应。
Jan, 2020
通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法,我们提出了一种基于发展机制的子目标发现方法,该方法能够逐渐学习这种表示法,并且通过导航任务的评估表明学习到的表示法是可解释的,并且可以实现数据效率。
Sep, 2023
用继任特征学习策略基础,以解决具有非马尔可夫奖励规范的多个任务的广义问题,在有限状态自动机中描述的任务中,使用这些(子)策略的组合可以在无需额外学习的情况下生成最优解,与通过规划组合(子)策略的其他方法相比,本方法能达到全局最优性,即使在随机环境中也是如此。
Mar, 2024
该研究提出了一个可从弱注释数据中学习有用子目标的框架,以支持高效长期规划以实现新目标,该框架的核心是基于环境状态的理性子目标 (RSGS),它们可以被指定为 A * 或 RRT 等规划算法的中间点,并显著提高规划效率。
Mar, 2023