使用VaST的优先级扫描规划方法,提高强化学习智能体的样本效率。在3D导航等任务中,VaST能够快速学习并有效地适应奖励或过渡概率的突然变化。
Feb, 2018
在本文中,我们提出了一个算法,它能够解决深度强化学习在Atari游戏集上遇到的三个关键难题,包括处理不同密度和规模的奖励分布、思考长时间序列以及有效地探索,该算法超过了人类在40个游戏上的表现,其中包括 Montezuma's Revenge 的第一关。
May, 2018
本研究旨在利用基于不确定性的深度网络动态模型来提高回报函数学习算法的样本效率,并通过样本传播方法实现不确定性处理,从而解决参数化函数逼近器,如深度网络的性能下降问题,我们提出了一种名为PETS的新算法。与深度强化学习的先进算法进行比较,结果表明我们的方法可以在Asymptotic Performance上与模型自由算法匹配,并且在许多具有挑战性的基准任务中需要明显较少的样本数量(例如,在半猎豹任务中所需样本数量比Soft Actor Critic和Proximal Policy Optimization分别减少8倍和125倍)。
探索了模型强化学习需要哪些不确定性,论证了好的不确定性必须具有校准性,并描述了一种简单的方法来增强任何模型强化学习代理程序,并表明通过校准模型,可以一致地提高规划、样本复杂度和探索能力,该方法在HalfCheetah MuJoCo任务中实现了最先进的性能,使用50%少的样本比当前领先的方法,并且研究表明,这种校准可以在计算和实施开销最小的情况下提高模型强化学习的性能。
Jun, 2019
提出了Effective Planning Window(EPW)条件,并提供一种算法来证明满足该条件的MDPs具有有效的样本使用率,该条件是在RL中不需要假设线性结构的一种结构性条件。
Jun, 2021
本文研究了深度模型与强化学习中的样本效率问题。通过将认知不确定性引入到计划树中,规避了标准方法的不确定性传播,并通过MuZero算法进行了评估验证。 实验结果表明,可以通过不确定性规划实现有效的深度探索,从而显著提高样本效率。
Oct, 2022
提出了一种基于期望风险的探索算法,通过训练神经网络和优化策略使智能体具有探索未知状态的能力,在深度强化学习中表现出良好的性能。
Feb, 2023
本文介绍了一种名为PSDRL的算法,它是第一个真正可扩展的近似后验采样强化学习算法,它结合了基于值函数近似的连续计划算法和对潜在状态空间模型的高效不确定性量化,经过在Atari基准测试上进行广泛实验,PSDRL在样本效率和计算效率上显著优于以前的尝试并在与基于模型的强化学习方法相比具备竞争力。
Apr, 2023
使用局部模拟器访问(或本地规划)的在线强化学习协议探索了模拟器在高维度域中的力量,并通过一个计算效率低的算法取得了具有低覆盖性的MDPs的有效学习和可追溯性,同时利用RVFS算法提供了在推进覆盖性的统计假设下的可靠样本复杂度保证。
Apr, 2024
本研究针对深度强化学习(DRL)中探索效率不足的问题,提出了一种新颖的贝叶斯演员-评论家算法,旨在提升环境的有效探索能力。通过理论研究和实证评估,证明该方法在标准基准和先进评估套件上的优越性,预计将为强化学习社区提供重要的工具和基础。
Aug, 2024