使用课程学习和跨行动空间的迁移学习来加速强化学习,通过限制其初始行动空间,同时为多个行动空间估算最优值函数,并高效地将数据、价值估计和状态表示从限制的行动空间转移到完整任务上,成功应用于复杂的大规模 StarCraft 微管理任务和控制任务中。
Jun, 2019
本文研究如何构建通用且高效的层次强化学习算法,其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督,并使用脱离策略的经验来提高效率。我们称此算法为 HIRO,并在模拟机器人上的实验中表现出高性能和高样本效率。
May, 2018
本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法,扩展了状态表示以达到更好的策略泛化能力,同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后,在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。
Nov, 2022
通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据,在保持简单性的同时,最大限度地提高了运行效率,从而实现了与现有离线 RL 算法相当的性能。
Jun, 2021
该论文提出了一种使用潜在动作空间学习策略的离线强化学习方法,能够有效克服现有算法存在的内插误差,具有优异的性能表现。
Nov, 2020
本文提出了一种新的框架 Fine Grained Action Repetition (FiGAR),该框架使代理能够在与环境交互的每个时间步长上决定动作以及重复该动作的时间尺度,可用于改进任何维护显式策略估计的深度强化学习算法。我们通过在不同领域的三个策略搜索算法上展示其性能改进,从而在 Atari 2600 领域中异步优势演员评论家,Mujoco 领域中的信任区域策略优化以及 TORCS 汽车比赛领域中的深度确定性策略梯度上展现了我们框架的效力。
Feb, 2017
提出了一种 proactive setting 的方法,其中智能体不仅在状态下选择一个动作,还选择要执行该动作的时间长度。TempoRL 方法介绍了状态之间的跳过连接,并学习了在这些跳过中重复相同动作的 skip-policy。研究表明,TempoRL 能够在传统和深度强化学习环境中学习成功的策略,速度比基准 Q-learning 快一个数量级。
本文提出了一个基于策略迭代的通用框架,可以在对一小部分行动的样本进行策略评估和改进的情况下对强化学习算法进行推理。其中,样本化 MuZero 是 MuZero 算法的一个扩展,可以在计划采样动作的情况下学习具有任意复杂行动空间的目标。作者用围棋和 DeepMind 的控制套件以及真实世界的强化学习测试开展了实证研究。
Apr, 2021
本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法,将大量离散行动嵌入到连续空间中,从而实现对大规模学习问题的解决。
Dec, 2015
本文提出了一种基于人类启发的框架以提高采样效率,其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务,并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性,实验表明该框架能够在优化问题方面表现出良好的性能。
Feb, 2023