延迟自适应策略优化及基于滞后赌博反馈的对抗 MDP 改进的遗憾
本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习,表现出基于策略优化的新算法,在完全信息反馈下实现了接近最优的高概率后悔情况,同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。
Dec, 2020
本研究考虑模型基于强化学习中的政策优化方法,提出了一种乐观的信任域策略优化算法,在离散情况下,对于未知转换和奖励反馈的情况,获得了首个亚线性 Regret 的下界。
Feb, 2020
在延迟观测环境中,通过包含延迟窗口内的动作来增加状态,以恢复马尔科夫特性,从而实现强化学习,但是最先进的时序差分学习框架通常由于延迟导致学习效率低下。为了提高学习效率而不损失性能,本工作引入了一种称为变分延迟策略优化(VDPO)的新框架,将延迟强化学习重新构建为一个变分推断问题。该问题进一步被建模为一个两步迭代优化问题,其中第一步是在无延迟环境中进行时序差分学习,而第二步是行为克隆,其效率比时序差分学习要高得多。我们不仅从样本复杂度和性能方面进行了理论分析,而且还通过在 MuJoCo 基准测试中的实验证明,VDPO 可以与最先进的方法达到一致的性能,并且样本效率显著提高(样本量减少了约 50%)。
May, 2024
本研究针对增强学习领域中的近端政策优化(PPO)算法,在线性马尔科夫决策过程中引入乐观变体,提出了一种新的多批次更新机制,使用价值和策略类的新覆盖数论算法进行优化和分析,成果在随机线性马尔可夫决策过程和完全信息对抗性线性马尔可夫决策过程中取得了最先进的成果。在对强化学习领域的理解和改进方面具有重要意义。
May, 2023
本文提出了一种高效的在线决策算法 MarcoPolo,用于处理具有确定性状态转移动态、对抗生成的奖励和旁观者反馈模型的 Markov 决策过程,并证明该算法满足 O (T^(3/4) sqrt (log (T))) 的遗憾边界。
Oct, 2012
本研究提出了在政策优化中添加膨胀奖励以促进全局探索的解决方案,用于改进和推广了(在具有对抗性损失和赌徒反馈的情况下)几个历史上最先进的 MDP 设定,并得到了更优秀的结果,其中包括调整了先前已知的结果。
Jul, 2021
本文考虑在延迟反馈下的敌对多臂老虎机问题,并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体,从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后,我们介绍了 AdaGrad 风格的版本的算法,该算法通过观察到的 (延迟的) 损失进行适应,而不仅仅是适应于累积延迟 (该算法要求先验上限)。
Oct, 2020
发展了一种新的方法,使用标准无偏估计量,并依赖于简单的递增的学习速率表和对数单调自协调障碍以及加强的弗里德曼不等式,以获取高概率遗憾边界。
Jun, 2020
本文研究含对手的强化学习中马尔科夫决策过程的学习问题,并提出了一种乐观的策略优化算法 POWERS,该算法可以达到近似最小化的最优遗憾,并证明了该算法的上下界。
Feb, 2021