DeepTOP: MDP和RMAB的深度阈值最优策略

Sep, 2022

DeepTOP: MDP和RMAB的深度阈值最优策略

DeepTOP: Deep Threshold-Optimal Policy for MDPs and RMABs

Khaled Nakhleh, I-Hong Hou

TL;DR本研究探讨了阈值策略在控制问题中的最优策略学习，发现其单调性质使得其策略梯度具有简单表达式，进而构建了一种基于离线策略评估方法的最优阈值策略学习算法，并应用于多臂老虎机问题中的Whittle index的学习。仿真结果表明，该算法学习速度比其他最近的Whittle index学习研究更快，能够充分利用阈值策略的单调性质获得较好性能。

Abstract

We consider the problem of learning the optimal threshold policy for control problems. threshold policies make control decisions by evaluating whether an element of the system state exceeds a certain threshold, whose value is determined by other elements of the system state. By leverag

发现论文，激发创造

软最大熵深度强化学习中的Stochastic Actor-Critic算法

本文提出一种基于最大熵强化学习框架的深度离策略演员-评论家算法，该算法通过离策略更新和稳定的随机演员-评论家公式结合，实现了在一系列连续控制基准任务上的最先进表现。

Jan, 2018

NeurWIN：深度强化学习的神经 Whittle 指数网络用于不安静的赌博机

本文提出了一种名为NeurWIN的神经Whittle指标网络，通过利用Whittle指标的数学性质，学习任何不平静机器的Whittle指标。我们证明了生成Whittle指标的神经网络也是为一组马尔可夫决策问题生成最优控制的神经网络，并演示了NeurWIN的实用性，评估其在三个不平静机器问题中的表现。我们的实验结果表明，NeurWIN的性能明显优于其他强化学习算法。

Oct, 2021

状态分布不匹配下Softmax离策略演员-评论家的全局最优性和有限样本分析

本文研究离线策略演员-评论家算法的全局最优性和收敛速度，通过使用近似和随机更新步骤，避免了稀疏性带来的问题，并且在文中基于均匀收缩性质，去掉相关分析的限制条件。

Nov, 2021

指数可索引性对Whittle算法不足：无静止赌博机改进的近似最优算法

本论文探讨了不安定多臂赌博机的规划问题，提出了一种基于均场方法的规划算法来获得近似最优策略。通过实验分析，该算法在实际应用中表现优异且无需外部超参数。

Oct, 2022

注重最坏情况鲁棒性的Max-Min离线策略演员-评论家算法

探讨了强化学习中的模拟环境和真实环境之间存在的不匹配问题，设计了一种基于最小-最大优化的离线演员-评论家算法（M2TD3）来优化不确定性参数集上的最坏情况表现，实现了该方法在MuJoco环境中的效果优于多个基准方法。

Nov, 2022

混沌中的阶梯：通过策略路径修剪和增强对普适DRL算法进行简单有效的改进

本文研究深度强化学习代理策略网络在学习过程中的演化，发现参数更新存在重大方向和次要方向，提出了基于此发现的简单而有效的方法Policy Path Trimming and Boosting (PPTB)，并证明其与TD3和RAD在MuJoCo和DMC环境中结合使用可以带来更好的性能改进。

Mar, 2023

存在对称性和状态抽象的策略梯度方法

本研究旨在通过抽象来提高强化学习在高维度和复杂问题上的效率和泛化能力，并在连续控制环境中研究抽象的概念，提出了一系列基于异构度量的策略梯度算法以及具有连续对称性的环境来证明该算法的效果，结果表明该算法利用MDP同态性进行表示学习可以提高其性能。

May, 2023

基于表格和深度学习的Whittle指数计算

使用QWI和QWINN两种强化学习算法，分别基于表格和深度学习结构，学习总折扣标准下的Whittle指数。关键特征是使用两个时间尺度，一个更快的时间尺度用于更新状态-动作Q值，一个相对较慢的时间尺度用于更新Whittle指数。在理论结果中证明了QWI的收敛性，并介绍了基于神经网络的QWINN算法，能够在大状态空间环境中从一个状态推断出另一个状态，并且与其他算法相比收敛速度更快。

Jun, 2024

深度强化学习中的高效探索：一种新颖的贝叶斯演员-评论家算法

本研究针对深度强化学习（DRL）中探索效率不足的问题，提出了一种新颖的贝叶斯演员-评论家算法，旨在提升环境的有效探索能力。通过理论研究和实证评估，证明该方法在标准基准和先进评估套件上的优越性，预计将为强化学习社区提供重要的工具和基础。

Aug, 2024

GINO-Q：学习一种渐近最优的索引策略用于无休止多臂老虎机

本研究解决了无休止多臂老虎机（RMAB）中由于状态空间和行动空间指数增长带来的求解困难问题。提出了一种名为GINO-Q的三时尺度随机逼近算法，该算法通过将RMAB分解为多个维度较低的子问题来学习渐近最优的索引策略，从而避免维度诅咒。实验结果表明，GINO-Q在非索引able RMABs中表现出色，学习到的策略接近最优，且收敛速度明显快于现有基线。

Aug, 2024