通过多次重复采样,离线强化学习算法在连续控制中具有高样本效率
通过引入预测模型和离线学习元素,结合一个实用性较高的终端价值函数,本文研究了如何在连续控制任务中实现样本高效的探索能力。通过利用潜在状态空间内的前向预测误差,我们得出了一种不引入额外参数的固有奖励。该奖励与模型不确定性有强烈的关联,使得智能体能够有效地克服渐进性能差距。通过广泛的实验证明,我们的方法在与以往工作的比较中表现出有竞争力的甚至更优异的性能,尤其是在稀疏奖励的情况下。
Mar, 2024
通过对 off-policy RL 算法强化学习算法进行实证分析,我们发现,Sharpness-Aware Minimization 和 reset 机制的联合使用可以提高网络的适应性和计算效率,具有较高的泛化性和可塑性。
Jun, 2023
研究利用理论达到策略提升保证的同时,结合较高的数据效率进行决策,通过广义的近端优化,基于样本的有效复用,实现了稳定性和样本效率之间的有效平衡,从而在表现上有了提高。
Oct, 2021
本文研究了在线学习与离线数据集学习两种环境下的样本有效的强化学习,提出了一个新的策略微调问题 —— 在线 RL 中,学习者在某种意义下可以接近最优策略,并在马尔科夫决策过程 (MDP) 中解决了这个问题。我们还提出了一个新的混合离线 / 在线策略微调算法,达到了更好的样本复杂度。
Jun, 2021
通过一个统一的基于策略的强化学习框架,在五种不同复杂度的连续控制环境中训练了超过 250000 个智能体,对强化学习的实现决策进行了大规模的实证研究,并提供了针对基于策略的训练推荐和技巧。
Jun, 2020
本文提出了一种新的训练和模型选择框架,用于模型无关的强化学习算法,使用单次训练的策略集合。这些策略通过定向扰动模型参数在一定时间间隔内进行学习,选择一个足够多样化的策略集合对于得到一个好的集成模型来说是必需的。该框架具有显著的样本效率和低计算成本,且在 Atari 2600 和 Mujoco 中表现优异。
Jan, 2020
本文提出了一个新概念 —— 部署效率,以衡量一个策略学习过程中使用的不同数据收集策略的数量,指出递归地使用现有的无模型离线强化学习算法不能实现实用的部署效率和样本效率,因此提出了一种名为 BREMEN 的新型基于模型的算法,在仅使用 10-20 倍于以前工作的数据的情况下,能够有效地离线优化策略,实现出色的部署效率和样本效率的学习,并使用仅 5-10 次部署即可在模拟的机器人环境中从头开始成功地学习策略,而标准强化学习基线的典型值是数百万次。
Jun, 2020
通过介绍一种随机搜索算法,我们证明了基于策略参数空间的随机搜索方法与探索动作空间的方法在样本效率方面没有显著差异。该算法可在连续控制问题中训练静态、线性策略,并在 MuJoCo 任务基准测试中表现出与最先进的模型无关方法相当的样本效率。此外,在动力学未知的控制理论经典问题中,我们的算法也能找到接近最优的控制器,计算效率至少比这些基准测试中最快的模型无关方法高出 15 倍。
Mar, 2018
通过选择唯一的样本并将其添加到重放缓冲区,以减小缓冲区大小并保持样本的独立和等分布性的目标,本研究提出了一种实现样本效率的方法。通过在随机探索的初始阶段从所遇到的经验中选择重要的状态变量的子集,将状态空间划分为一组抽象状态,并通过使用核密度估计量选择具有唯一状态 - 奖励组合的经验。我们证明了采用所提出的独特经验积累方法的离策略演员 - 评论家算法比纯粹的离策略演员 - 评论家算法收敛更快。此外,我们通过与 Gym 环境中的两种最先进的演员 - 评论家强化学习算法进行比较来评估我们的方法。实验结果表明,与基准算法相比,我们的方法在各项连续控制基准测试中显著减小了重放缓冲区的大小,同时实现更快的收敛或更好的奖励积累。
Feb, 2024
该研究提出了一类广义政策提升算法,将在线算法和离线算法相结合,在保证策略改进的同时,实现了高效数据复用,为深度强化学习的实际应用提供了可行性。
Jun, 2022