本研究针对增强学习领域中的近端政策优化(PPO)算法,在线性马尔科夫决策过程中引入乐观变体,提出了一种新的多批次更新机制,使用价值和策略类的新覆盖数论算法进行优化和分析,成果在随机线性马尔可夫决策过程和完全信息对抗性线性马尔可夫决策过程中取得了最先进的成果。在对强化学习领域的理解和改进方面具有重要意义。
May, 2023
本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本(OPPO),它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下,探索机制下的近似最优解,是第一种实现这一目标的算法。
Dec, 2019
本文介绍了一种名为 Prognosticator 的策略梯度算法,这种算法通过对政策性能的预测来主动搜索一个好的未来策略,并且通过将过去数据进行非均匀重新赋权,使该算法比其他两种在线适应技术更具鲁棒性。
May, 2020
本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程(MDP)最优模型 - free 算法 OPT-WLSVI,使用指数权重平滑地遗忘过去的数据,与先前的研究相比解决了遗忘策略上的技术差距,并分析了与最佳策略竞争的总遗憾是有上限的。
Oct, 2020
本文研究了具有不稳定目标和约束的约束马尔可夫决策过程的原始 - 对偶强化学习,并提出了具有安全性和适应性的时间变化中安全的 RL 算法,同时建立了动态遗憾界和约束违规界。
Jan, 2022
本研究在探讨非平稳马尔可夫决策过程下的强化学习问题,针对低秩模型中存在未知表示的情况,提出了参数依赖的优化算法 PORTAL 和参数无关的改进版 Ada-PORTAL,通过样本复杂度进行理论分析并得出上界,证明了在非平稳性不显著时,这两种算法均能够以多项式样本复杂度实现任意小的平均动态次优差距。
Aug, 2023
本研究考虑模型基于强化学习中的政策优化方法,提出了一种乐观的信任域策略优化算法,在离散情况下,对于未知转换和奖励反馈的情况,获得了首个亚线性 Regret 的下界。
Feb, 2020
我们提出了一个简单而有效的基于模型的离线强化学习框架 ORPO,通过提倡更多的离群值扩展,基于乐观的 MDP 生成乐观模型推演用于悲观的离线策略优化,并在理论上证明 ORPO 训练出的策略在线性 MDP 中具有下界,实验结果显示我们的框架在广泛应用的基准测试中显著优于 P-MDP 基线,尤其在需要泛化的问题上表现出明显优势。
Jan, 2024
本文研究含对手的强化学习中马尔科夫决策过程的学习问题,并提出了一种乐观的策略优化算法 POWERS,该算法可以达到近似最小化的最优遗憾,并证明了该算法的上下界。
Feb, 2021
本文提出了两种针对具有对抗性全信息奖励反馈和未知固定转移核的情境 MDPs 的无模型策略优化算法 POWER 和 POWER ++,并建立了它们的动态后悔保证。
Jun, 2020