针对学习对抗线性混合MDP的接近最优策略优化算法
本文提出了一种有效的算法,解决了具有未知转移函数、bandit反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题,该算法能够以高概率实现 $\mathcal{\tilde{O}}(L|X|\sqrt{|A|T})$ 的后悔,其中 $L$ 为时间段,$|X|$ 为状态数,$|A|$ 为动作数,而 $T$ 为剧集数。
Dec, 2019
开发多种学习用于Markov Decision Processes的无限时间平均奖励设置和线性函数逼近的算法,使用乐观原则和假设MDP具有线性结构,提出具有优化的计算效率的算法,并展开了详细的分析,改进了现有最佳结果。
Jul, 2020
本研究提出了在政策优化中添加膨胀奖励以促进全局探索的解决方案,用于改进和推广了(在具有对抗性损失和赌徒反馈的情况下)几个历史上最先进的MDP设定,并得到了更优秀的结果,其中包括调整了先前已知的结果。
Jul, 2021
研究使用线性函数近似的强化学习,其中转移概率和奖励函数是关于特征映射phi(s,a)的线性函数。提出了新的计算高效算法LSVI-UCB+,其在Bernstein类型的探索奖励的帮助下,具有常数估计的L2误差,并且特别适用于情节不同整体线性马尔可夫决策过程,证明了LSVI-UCB+的统计结果并且在理论上是最优秀的。
Jun, 2022
本文介绍了一种基于加权线性回归方案的计算有效算法,用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾,具有较好的效率,对参数化转换动态有良好的适应性,可以对研究领域进行更细致的探讨。
Dec, 2022
本文研究了在损失函数任意的情况下,对于线性近似的Q函数,提出了两种算法,可以在拥有模拟器的情况下使得损失最小值达到$\tilde{\mathcal O}(\sqrt K)$,并在无模拟器情况下实现了 $ ilde{\mathcal O}(K^{8/9})$ 的表现,改进了之前的表现
Jan, 2023
本文探讨了如何用线性优化的方法解决在对抗环境下的马尔科夫决策过程问题,通过将特征映射设置到线性优化的赌臂中,得到了不需要访问转移模拟器的新技术,并在探索性的假设下,将线性对手马尔科夫决策问题的最优结果从 $ ilde{O}(K^{6/7})$ 提高到了 $ ilde{O}(K^{4/5})$。
Feb, 2023
本研究针对增强学习领域中的近端政策优化(PPO)算法,在线性马尔科夫决策过程中引入乐观变体,提出了一种新的多批次更新机制,使用价值和策略类的新覆盖数论算法进行优化和分析,成果在随机线性马尔可夫决策过程和完全信息对抗性线性马尔可夫决策过程中取得了最先进的成果。在对强化学习领域的理解和改进方面具有重要意义。
May, 2023
通过使用APO-MVP算法和基于动态规划和黑盒在线线性优化策略的策略优化,本文在对手强 Markov 决策过程中提出了一个新的追悔边界概念,并且通过估计优势函数以避免典型的占有度量工具,实现了对状态和动作空间大小的优化,使得算法易于实现。
Jul, 2024