对抗MDP中的策略优化:通过扩张奖励实现更好的探索
本文提出了一种有效的算法,解决了具有未知转移函数、bandit反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题,该算法能够以高概率实现 $\mathcal{\tilde{O}}(L|X|\sqrt{|A|T})$ 的后悔,其中 $L$ 为时间段,$|X|$ 为状态数,$|A|$ 为动作数,而 $T$ 为剧集数。
Dec, 2019
本文研究含对手的强化学习中马尔科夫决策过程的学习问题,并提出了一种乐观的策略优化算法POWERS,该算法可以达到近似最小化的最优遗憾,并证明了该算法的上下界。
Feb, 2021
本文研究了在损失函数任意的情况下,对于线性近似的Q函数,提出了两种算法,可以在拥有模拟器的情况下使得损失最小值达到$\tilde{\mathcal O}(\sqrt K)$,并在无模拟器情况下实现了 $ ilde{\mathcal O}(K^{8/9})$ 的表现,改进了之前的表现
Jan, 2023
本文探讨了如何用线性优化的方法解决在对抗环境下的马尔科夫决策过程问题,通过将特征映射设置到线性优化的赌臂中,得到了不需要访问转移模拟器的新技术,并在探索性的假设下,将线性对手马尔科夫决策问题的最优结果从 $ ilde{O}(K^{6/7})$ 提高到了 $ ilde{O}(K^{4/5})$。
Feb, 2023
研究PO在带有滞后奖励的对抗MDPs中的应用,提出Delay-Adapted PO算法并得到全新的表格MDPs回归界限,在基于线性Q函数的无限状态空间和深度RL应用中都取得了显著的成果。
May, 2023
本文通过提出第一个无界时间步长多次对抗强化学习的策略搜索算法,使用方差-不确定性感知加权最小二乘估计器和基于占用度量的在线搜索技术,以解决探索和对抗性奖励所带来的挑战,证明算法在全信息反馈下具有 O((d+log(|S|^2|A|))sqrt(K)) 的后悔界,其中 d 是未知转移核线性参数化的已知特征映射的维数,K 是剧集数量,|S| 和 |A| 是状态和行为空间的基数。
May, 2023
该研究探讨了马尔可夫决策过程中的无标度学习问题,提出了一个通用的算法框架(SCB),并在对抗性多臂赌博机和对抗性马尔可夫决策过程中应用该框架,从而实现了无标度对抗性多臂赌博机的首个鲁棒(最小化)期望遗憾上界和首个高概率遗憾上界,并产生了第一个具有$\tilde{\mathcal{O}}(\sqrt{T})$高概率遗憾保证的无标度强化学习算法。
Mar, 2024
通过使用APO-MVP算法和基于动态规划和黑盒在线线性优化策略的策略优化,本文在对手强 Markov 决策过程中提出了一个新的追悔边界概念,并且通过估计优势函数以避免典型的占有度量工具,实现了对状态和动作空间大小的优化,使得算法易于实现。
Jul, 2024