无标度对抗强化学习
本文提出两种基于无模型的强化学习算法,用于学习无限时间持续的平均回报MDP问题,第一种算法在弱相互通信的MDPs中,将问题简化为折扣回报问题,在T步之后的遗憾为O(T^(2/3)),该算法是解决该问题的第一种无模型的算法;第二种算法利用了对抗多臂老虎机自适应算法的最新进展,将遗憾进一步改进至O(sqrt(T)),但需要更强的符合人类定义的遍历条件。这个结果取代了Abbasi-Yadkori等人2019年只有在符合人类定义的遍历条件下的ergodic MDP才能达到O(T^(3/4))的遗憾。
Oct, 2019
本文提出了一种有效的算法,解决了具有未知转移函数、bandit反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题,该算法能够以高概率实现 $\mathcal{\tilde{O}}(L|X|\sqrt{|A|T})$ 的后悔,其中 $L$ 为时间段,$|X|$ 为状态数,$|A|$ 为动作数,而 $T$ 为剧集数。
Dec, 2019
发展了一种新的方法,使用标准无偏估计量,并依赖于简单的递增的学习速率表和对数单调自协调障碍以及加强的弗里德曼不等式,以获取高概率遗憾边界。
Jun, 2020
本文研究含对手的强化学习中马尔科夫决策过程的学习问题,并提出了一种乐观的策略优化算法POWERS,该算法可以达到近似最小化的最优遗憾,并证明了该算法的上下界。
Feb, 2021
本研究提出了在政策优化中添加膨胀奖励以促进全局探索的解决方案,用于改进和推广了(在具有对抗性损失和赌徒反馈的情况下)几个历史上最先进的MDP设定,并得到了更优秀的结果,其中包括调整了先前已知的结果。
Jul, 2021
本文探讨了如何用线性优化的方法解决在对抗环境下的马尔科夫决策过程问题,通过将特征映射设置到线性优化的赌臂中,得到了不需要访问转移模拟器的新技术,并在探索性的假设下,将线性对手马尔科夫决策问题的最优结果从 $ ilde{O}(K^{6/7})$ 提高到了 $ ilde{O}(K^{4/5})$。
Feb, 2023
本篇论文提出了一种在线学习算法,能够同时应对恶意对手的损失函数和状态转移,并且随着对手的恶意程度而平稳地增加遗憾,同时采用黑盒约简方法达到无需先验知识的效果。此外,本文还对算法进行了改进,在生成损失的环境易于控制的情况下可以实现较小的遗憾。
May, 2023
通过使用APO-MVP算法和基于动态规划和黑盒在线线性优化策略的策略优化,本文在对手强 Markov 决策过程中提出了一个新的追悔边界概念,并且通过估计优势函数以避免典型的占有度量工具,实现了对状态和动作空间大小的优化,使得算法易于实现。
Jul, 2024
本研究解决了低秩马尔可夫决策过程中的遗憾最小化问题,聚焦于未知转移的全信息损失反馈和带宽损失反馈的设置。论文提出改进的算法,使得在全信息未知转移情况下的遗憾界限达到$poly(d, A, H)T^{2/3}$,并首次探讨了在带宽损失反馈与未知转移的条件下的算法,揭示线性结构对带宽情况下的必要性,对比全信息情况下的不同表现。
Nov, 2024