蒙特卡罗批判优化引导强化学习中的探索
该研究论文提出了一种基于`meta-policy gradient`算法的自适应学习方法,可用于解决现有基于添加噪声的探索方法仅能探索接近actor策略的局部区域的问题,从而实现独立于actor策略的全局探索,而这对各种强化学习任务的样本效率都有相当大的提升。
Mar, 2018
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
本论文提出了一种新的强化学习算法——乐观的Actor-Critic方法(OAC),通过在状态动作值函数上近似上限和下限的置信区间,实现了在探索性上的乐观及方向性采样,从而提高了算法对连续控制任务的采样效率。
Oct, 2019
本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法,称为MCTSPO,通过使用上界置信度启发式获得更好的探索-利用平衡,相对于基于梯度和深度遗传算法的基准,在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。
Dec, 2019
在本文中,我们使用归纳法方法,针对一类最优策略的前馈马尔可夫决策流程(Optimal Policy Feed-Forward MDPs),即在使用最优策略下,MDPs的状态在任何情况下都不会被重访的MDPs,为原始MCES算法取得了几乎肯定的收敛性。
Feb, 2020
本文研究如何将内在动机与深度强化学习相结合,以用于连续系统的有向探索行为。我们基于动物激励系统的现有理论,提出了一种创新的、可扩展的有向探索策略,它受到价值函数误差的最大化的影响。大量实证研究表明,我们的框架可以扩展到更大、更多样化的状态空间,显著提高基线,明显优于非定向策略。
Oct, 2022
本文提出了一种基于Thompson采样的可扩展和有效的强化学习策略,通过使用Langevin Monte Carlo从其后验分布中直接抽取Q函数,该方法只需进行嘈杂的梯度下降更新即可学习Q函数的精确后验分布,在深度RL中易于部署,取得了优于或类似于Atari57套件上现有深度RL算法的结果。
May, 2023
基于双Q函数框架,引入一种新的探索策略来解决连续动作空间中政策梯度法探索的问题,通过使用贪婪Q值和保守Q值的加权和来更新Q值,将行动探索与Q值更新相结合,并在Mujoco基准测试中展示了优越的性能。
Aug, 2023
本研究旨在解决离线强化学习中的Markov决策问题,提出利用引导策略来提升表现。通过将蒙特卡罗树搜索(MCTS)作为引导,研究表明这种方法显著改善了强化学习代理的性能,超越了各方法单独使用的效果。
Aug, 2024
本研究针对深度强化学习(DRL)中探索效率不足的问题,提出了一种新颖的贝叶斯演员-评论家算法,旨在提升环境的有效探索能力。通过理论研究和实证评估,证明该方法在标准基准和先进评估套件上的优越性,预计将为强化学习社区提供重要的工具和基础。
Aug, 2024