该研究针对有限时间段的离散马尔科夫决策问题,提出了一种算法并分析了其性能上限,得出了最先进的范围和如果环境规范小则更紧的限制,其不需要先前对应环境规范的知识,能解决经验学习中常常遇到的限制问题。
Jan, 2019
提出了一种基于鞍点形式的强化学习到无悔在线学习的缩减方法,将强化学习问题分解成了遗憾最小化和函数逼近两个部分,并指出了这一缩减方法的重要性
Nov, 2019
在稀疏线性马尔可夫决策过程中,通过引入一种新的算法- Lasso fitted Q-iteration, 通过一个具有一定条件的数据策略,以几乎无维度代价实现对在线强化学习的降低,但线性后悔在常用政策情况下仍然无法避免。
Nov, 2020
本文研究了从固定行为策略生成的线下数据中学习无限时间折扣马尔可夫决策过程中的后悔问题,分析了$Q$-iteration(FQI)等常见方法的后悔收敛速度,并提供了较快的收敛率。其中,一种可行的方法是根据最优质量函数的任何估计,定义的策略的后悔以指数形式收敛于 $Q^*$ ,使其加速;同时,建立了这种噪声水平在线性和表形 MDP 中的应用。
Jan, 2021
通过引入方差缩减策略,设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题,该算法的空间复杂度为$ O(SAH)$,较以前的算法提高了$S^5A^3$倍的效率。
Oct, 2021
本文提出了一种无需进一步探索的离线强化学习方法,通过精心设计的模型实现了最优的样本复杂度,适合处理数据分布转移和数据覆盖范围受限的情况。
Apr, 2022
本文研究在线强化学习的样本复杂性问题,并考虑了有关系统动态的部分知识,提出了一种基于Q-learning的算法,能够在具有有限Markov决策过程的系统中实现近似最优策略。
Dec, 2023
我们提出了一个新颖的基于后验采样的离线RL算法,该算法在样本效率方面表现出与基于版本空间和经验正则化的算法可比拟的性能,并且具有频率主义的亚优性界限。
Jan, 2024
强化学习中,研究任务间具有变化时,通过最小化后悔累积可以实现更好的结果,即在每个任务中过度探索,尤其在任务之间出现重大变化时。
Mar, 2024
本研究解决了混合强化学习(RL)在保证无单一策略集中的假设下,是否可以改善纯离线和纯在线RL所建立的下界这一问题。通过研发高效算法,发现这些算法在提高误差或后悔界限方面实现了显著进展,为线性马尔可夫决策过程中的混合RL提供了最严格的理论保证。
Aug, 2024