基于技能空间规划的无需重置的终身学习
在非稳态环境下,我们提出了一种新的离线强化学习算法,该算法使用潜在变量模型,将当前和过去的经验学习环境的表示,并在此表示下执行离线强化学习,实验结果表明这种方法显著优于不考虑环境变化的方法。
Jun, 2020
本研究提出了一个基于 Hanabi 的多智能体生涯学习测试平台,研究了最新的多智能体强化学习算法,对限制的内存和计算权衡性能以及对超量训练预测的影响,证明了我们的代理可以在没有任何其他假设的情况下良好地与未见代理协调。
Mar, 2021
本研究提出了一种基于技能空间的模型强化学习(SkiMo)框架,使用技能动力学模型来规划,以实现精确和有效的长期规划,从而使学习复杂任务变得更加高效。该框架在导航和操作领域的实验结果表明,对于模型强化学习和技能强化学习,能够扩大时间范围并提高示范效率。
Jul, 2022
本文提出了一种基于元学习和稀疏经验回放的方法来实现连续学习,以避免深度学习模型在顺序学习任务时遗忘先前的知识。该方法在真实场景下实现了连续的文本分类和关系提取任务,并展示了其低计算和空间复杂度。
Sep, 2020
利用 Skill-Critic 算法,结合高层技能选择来优化低级和高级策略,通过离线演示数据学习到的潜在空间来指导联合策略优化,提高在多个稀疏环境中的决策性能。
Jun, 2023
该论文探讨了在终身学习的情境下如何跟踪和适应持续的领域转变,为此提出了反应式探索方法,并基于实验证明,策略梯度方法是适合于终身学习的一种学习方法,能更快地适应分布变化。
Jul, 2022
利用大型语言模型(LLMs)和运动规划,提出了一种模块化方法 Plan-Seq-Learn(PSL),将抽象语言和学习到的低级控制相结合,从头开始解决长期目标的机器人任务,并在超过 25 个具有挑战性的机器人任务中取得了最先进的结果。
May, 2024
我们提出了一种在多个领域中比现有方法更出色的技能转移方法,通过学习现有的时间扩展技能序列来进行探索,并直接从原始经验中学习最终策略,实现快速适应和高效数据收集。
Nov, 2022
LEAGUE 是一种集成任务计划和技能学习框架,利用任务计划器的符号界面指导基于深度强化学习的技能学习,同时创建抽象状态空间以实现技能重用,并可以在任务计划系统内学习操作技能,不断提高其能力并解决更多任务。
Oct, 2022