通过观察和学习世界的运作，发现利用 ' 赌博式 ' 选择进行规划的生活技能

Jul, 2022

通过观察和学习世界的运作，发现利用 ' 赌博式 ' 选择进行规划的生活技能

Discover Life Skills for Planning with Bandits via Observing and Learning How the World Works

Tin Lai

TL;DR该论文提出了一种利用历史交互观察和学习以合成抽象技能的规划代理的新方法，该方法基于马尔科夫状态空间模型，利用未知前提条件下的行动集合，并将技能公式化为基于当前状态提出行动计划的高层抽象策略，以此实现在嘈杂环境下自动学习稳健的高级技能。

Abstract

We propose a novel approach for planning agents to compose abstract skills via observing and learning from historical interactions with the world. Our framework operates in a markov state-space model via a set of

agent planning abstract skills markov state-space model multi-armed bandit problem automatic learning

发现论文，激发创造

探索和转移的潜在技能规划

该研究探讨了将学习到的世界模型和技能集成到单个强化学习代理中以快速适应新任务的方法，并在一系列具有挑战性的运动任务中展示了在单个任务和从一个任务到另一个任务的转移中改善了样本效率。

Nov, 2020

学习抽象世界模型用于值保持规划和选项

通过学习抽象 MDP（Markov 决策过程）来提高智能体在多任务环境中的决策和学习效率。

Jun, 2024

基于数据驱动的模仿学习规划

利用数据驱动的模仿学习框架，通过模仿一个清晰的预测者，解决了机器人规划中的优化问题，从而为序列决策制定了更好的战略。在信息不完整的计划问题上进行了验证，包括真实的无人机实验，并且表现优于现有的算法。

Nov, 2017

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

通过调整规划模型学习在开放世界中的操作

在开放世界中，我们介绍了一个适应新颖性的规划领域模型的方法，通过检测行动执行的观察值和环境模型的预期值之间的差异来推断新颖性的存在，并通过启发式导向的模型改变搜索来修订模型。我们在标准的强化学习基准 CartPole 问题上进行实证评估，结果表明我们的方法可以快速且可解释地处理一类新颖性。

Mar, 2023

从零开始学习基于模型的规划

介绍了一种基于想象的规划器，可以学习构建、评估和执行计划，并可通过学习策略等手段进行多方案模拟，联合优化外部收益和计算成本等目标。

Jul, 2017

连续控制中前瞻探索的模型学习

本文提出了一种探索方法，将先前学习的基本技能及其动态与前瞻性搜索相结合，用于操作策略的强化学习，并且表明该方法比当前最先进的 RL 方法更快地学习到复杂操作策略，并获得更好的策略收敛结果。

Nov, 2018

残差技能策略：学习适应性技能基础的动作空间，用于机器人增强学习

通过使用状态条件生成模型在技能空间中加速探索，同时提出低层次的剩余策略来适应未知的任务变化，从而在与先前工作的比较中显着加快了探索速度，并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。

Nov, 2022

模型自由规划的研究

通过模型自由的深度神经网络结构，套用归纳偏差这一概念，成功实现了能够规划的强化学习智能体，并在不同领域有着较高的泛化能力和高效性。

Jan, 2019

回放缓存搜索：连接计划和强化学习

我们介绍了一种结合规划算法和强化学习的通用控制算法，称为搜索回放缓冲（SoRB），可以自动生成子目标序列并解决高维度的长期任务。

Jun, 2019