基于技能空间规划的无需重置的终身学习

ICLRDec, 2020

基于技能空间规划的无需重置的终身学习

Reset-Free Lifelong Learning with Skill-Space Planning

Kevin Lu, Aditya Grover, Pieter Abbeel, Igor Mordatch

TL;DR论文提出了一种基于高阶技能抽象规划的无剧本生涯强化学习框架 LiSP，该框架使用内在奖励进行技能学习并使用学到的动力学模型进行规划，能够在不断变化的非稳态非剧本的环境中取得成功，甚至有助于从离线数据中发现技能，减少与现实世界的交互。

Abstract

The objective of lifelong reinforcement learning (RL) is to optimize agents which can continuously adapt and interact in changing environments. However, current RL approaches fail drastically when environments are non-stationary and interactions are →

lifelong reinforcement learning non-episodic skill planning intrinsic rewards dynamics model

发现论文，激发创造

深度强化学习在生命周期非稳态环境下的应用

在非稳态环境下，我们提出了一种新的离线强化学习算法，该算法使用潜在变量模型，将当前和过去的经验学习环境的表示，并在此表示下执行离线强化学习，实验结果表明这种方法显著优于不考虑环境变化的方法。

Jun, 2020

作为终身学习现实场景的持续协调

本研究提出了一个基于 Hanabi 的多智能体生涯学习测试平台，研究了最新的多智能体强化学习算法，对限制的内存和计算权衡性能以及对超量训练预测的影响，证明了我们的代理可以在没有任何其他假设的情况下良好地与未见代理协调。

Mar, 2021

基于技能的模型驱动增强学习

本研究提出了一种基于技能空间的模型强化学习（SkiMo）框架，使用技能动力学模型来规划，以实现精确和有效的长期规划，从而使学习复杂任务变得更加高效。该框架在导航和操作领域的实验结果表明，对于模型强化学习和技能强化学习，能够扩大时间范围并提高示范效率。

Jul, 2022

实时策略游戏综合终身强化学习智能体系统设计

本文介绍了 L2RLCF 框架以及通过 Starcraft-2 小游戏实现不同组件的整合，从而实现连续学习的能力并进行全面客观的比较。

Dec, 2022

利用稀疏经验回放进行元学习，实现终身语言学习

本文提出了一种基于元学习和稀疏经验回放的方法来实现连续学习，以避免深度学习模型在顺序学习任务时遗忘先前的知识。该方法在真实场景下实现了连续的文本分类和关系提取任务，并展示了其低计算和空间复杂度。

Sep, 2020

技能批评家：为强化学习优化学得技能

利用 Skill-Critic 算法，结合高层技能选择来优化低级和高级策略，通过离线演示数据学习到的潜在空间来指导联合策略优化，提高在多个稀疏环境中的决策性能。

Jun, 2023

应对生涯强化学习中非稳态性的反应性探索

该论文探讨了在终身学习的情境下如何跟踪和适应持续的领域转变，为此提出了反应式探索方法，并基于实验证明，策略梯度方法是适合于终身学习的一种学习方法，能更快地适应分布变化。

Jul, 2022

Plan-Seq-Learn: 语言模型引导强化学习解决长时程机器人任务

利用大型语言模型（LLMs）和运动规划，提出了一种模块化方法 Plan-Seq-Learn（PSL），将抽象语言和学习到的低级控制相结合，从头开始解决长期目标的机器人任务，并在超过 25 个具有挑战性的机器人任务中取得了最先进的结果。

May, 2024

SkillS: 自适应技能序列用于高效的时间扩展探索

我们提出了一种在多个领域中比现有方法更出色的技能转移方法，通过学习现有的时间扩展技能序列来进行探索，并直接从原始经验中学习最终策略，实现快速适应和高效数据收集。

Nov, 2022

指导技能学习和抽象以实现长远操纵

LEAGUE 是一种集成任务计划和技能学习框架，利用任务计划器的符号界面指导基于深度强化学习的技能学习，同时创建抽象状态空间以实现技能重用，并可以在任务计划系统内学习操作技能，不断提高其能力并解决更多任务。

Oct, 2022