一个高效地累积知识、在长期生命周期中不断发展更复杂技能的代理机构,可以推动人工智能能力的前沿。本文概述和形式化了持续学习的概念,引入了一个框架和一套工具来激发进一步的研究。
Jul, 2023
本文综述了关于非不变 RL(Lifelong 或非平稳 RL)的不同公式和方法的文献,提出了连续 RL 公式的分类法,并提供了连续 RL 方法的分类。此外,我们讨论了评估连续 RL 代理的重要度量和开放性问题,并强调了这方面的研究前景。
Dec, 2020
本论文从计算机科学的角度调查了强化学习领域,包括历史、现状和实践应用等方面,并重点探讨了强化学习中的中心问题,如平衡探索和利用、马尔可夫决策理论、延迟强化学习等。
May, 1996
这篇论文介绍了连续学习的概念和机器学习中面临的挑战,提出了在自主体或机器人中使用连续学习以适应环境和优化学习过程的方法,并介绍了现有的基准和度量标准,并提出了一种框架来评估这些方法的有效性。
Jun, 2019
本文旨在介绍强化学习在机器人自主行动和控制方面的应用,同时关注问题的关键挑战和未来研究方向。
Oct, 2022
研究了强化学习在连续时间和空间的设置下的应用,提出了购买力占据时间的概念,并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验,验证了此方法的有效性和优势。
May, 2023
连续学习是机器学习的一个子领域,本文调查了连续学习研究中的内存受限设置、未解决的问题以及未来的研究方向。
Nov, 2023
本论文将 Deep Q-Learning 算法应用于连续动作域,并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法,可在连续动作空间中进行操作,成功解决了 20 多个模拟物理任务,并能与完全访问动态并了解其导数的规划算法相竞争,并证明该算法对许多任务能够进行端到端学习。
Sep, 2015
提出了 Continual World 基准,并进行了基于机器人任务的方法评估,该评估针对 Continual learning 中的前向迁移和 Catastrophic forgetting 进行优化,以提高方法在 RL 中的性能。
May, 2021
本论文提出了一种称之为强化连续学习的方法,该方法通过巧妙设计的强化学习策略为每个任务搜索最佳神经架构,不仅能够在防止灾难性遗忘方面有很好的性能,还能够适应新任务。在 MNIST 和 CIFAR-100 数据集的连续分类任务实验中,该方法优于现有的深度网络连续学习替代方案。
May, 2018