DeepTOP: MDP和RMAB的深度阈值最优策略
本文提出一种基于最大熵强化学习框架的深度离策略演员-评论家算法,该算法通过离策略更新和稳定的随机演员-评论家公式结合,实现了在一系列连续控制基准任务上的最先进表现。
Jan, 2018
本文提出了一种名为NeurWIN的神经Whittle指标网络,通过利用Whittle指标的数学性质,学习任何不平静机器的Whittle指标。我们证明了生成Whittle指标的神经网络也是为一组马尔可夫决策问题生成最优控制的神经网络,并演示了NeurWIN的实用性,评估其在三个不平静机器问题中的表现。我们的实验结果表明,NeurWIN的性能明显优于其他强化学习算法。
Oct, 2021
本文研究离线策略演员-评论家算法的全局最优性和收敛速度,通过使用近似和随机更新步骤,避免了稀疏性带来的问题,并且在文中基于均匀收缩性质,去掉相关分析的限制条件。
Nov, 2021
本论文探讨了不安定多臂赌博机的规划问题,提出了一种基于均场方法的规划算法来获得近似最优策略。通过实验分析,该算法在实际应用中表现优异且无需外部超参数。
Oct, 2022
探讨了强化学习中的模拟环境和真实环境之间存在的不匹配问题,设计了一种基于最小-最大优化的离线演员-评论家算法(M2TD3)来优化不确定性参数集上的最坏情况表现,实现了该方法在MuJoco环境中的效果优于多个基准方法。
Nov, 2022
本文研究深度强化学习代理策略网络在学习过程中的演化,发现参数更新存在重大方向和次要方向,提出了基于此发现的简单而有效的方法Policy Path Trimming and Boosting (PPTB),并证明其与TD3和RAD在MuJoCo和DMC环境中结合使用可以带来更好的性能改进。
Mar, 2023
本研究旨在通过抽象来提高强化学习在高维度和复杂问题上的效率和泛化能力,并在连续控制环境中研究抽象的概念,提出了一系列基于异构度量的策略梯度算法以及具有连续对称性的环境来证明该算法的效果,结果表明该算法利用MDP同态性进行表示学习可以提高其性能。
May, 2023
使用QWI和QWINN两种强化学习算法,分别基于表格和深度学习结构,学习总折扣标准下的Whittle指数。关键特征是使用两个时间尺度,一个更快的时间尺度用于更新状态-动作Q值,一个相对较慢的时间尺度用于更新Whittle指数。在理论结果中证明了QWI的收敛性,并介绍了基于神经网络的QWINN算法,能够在大状态空间环境中从一个状态推断出另一个状态,并且与其他算法相比收敛速度更快。
Jun, 2024
本研究针对深度强化学习(DRL)中探索效率不足的问题,提出了一种新颖的贝叶斯演员-评论家算法,旨在提升环境的有效探索能力。通过理论研究和实证评估,证明该方法在标准基准和先进评估套件上的优越性,预计将为强化学习社区提供重要的工具和基础。
Aug, 2024
本研究解决了无休止多臂老虎机(RMAB)中由于状态空间和行动空间指数增长带来的求解困难问题。提出了一种名为GINO-Q的三时尺度随机逼近算法,该算法通过将RMAB分解为多个维度较低的子问题来学习渐近最优的索引策略,从而避免维度诅咒。实验结果表明,GINO-Q在非索引able RMABs中表现出色,学习到的策略接近最优,且收敛速度明显快于现有基线。
Aug, 2024