VO$Q$L: 非线性函数逼近下无模型强化学习的最优遗憾
该研究针对有限时间段的离散马尔科夫决策问题,提出了一种算法并分析了其性能上限,得出了最先进的范围和如果环境规范小则更紧的限制,其不需要先前对应环境规范的知识,能解决经验学习中常常遇到的限制问题。
Jan, 2019
本论文提出了一种新的基于广义线性函数逼近的回合式强化学习算法,并在乐观闭合假设下分析其性能,证明了其具有更低的复杂度,并且是强化学习中第一个具有统计和计算效率的基于广义线性函数的算法。
Dec, 2019
提出了RestartQ-UCB算法,它是第一个非定常强化学习的模型自由算法,并且通过实验证明在多代理强化学习和相关产品库存控制方面具有较好的性能。
Oct, 2020
这篇研究采用线性函数逼近的方法来应用强化学习在马尔科夫决策过程中,通过衡量合适的指标来保证奖励和状态转移函数变化的幅度不超过一定的上限,提出了两种最优算法:LSVI-UCB-Restart和Ada-LSVI-UCB-Restart。该研究还为非平稳MDP和线性MDP提供了动态遗憾分析的理论支持,并进行了有效性验证。
Oct, 2020
通过引入方差缩减策略,设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题,该算法的空间复杂度为$ O(SAH)$,较以前的算法提高了$S^5A^3$倍的效率。
Oct, 2021
研究使用线性函数近似的强化学习,其中转移概率和奖励函数是关于特征映射phi(s,a)的线性函数。提出了新的计算高效算法LSVI-UCB+,其在Bernstein类型的探索奖励的帮助下,具有常数估计的L2误差,并且特别适用于情节不同整体线性马尔可夫决策过程,证明了LSVI-UCB+的统计结果并且在理论上是最优秀的。
Jun, 2022
本文介绍了一种基于加权线性回归方案的计算有效算法,用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾,具有较好的效率,对参数化转换动态有良好的适应性,可以对研究领域进行更细致的探讨。
Dec, 2022
提出了一种用于非线性函数逼近的离线强化学习方法——悲观非线性最小二乘值迭代(PNLSVI),它包括方差加权回归、方差估计子程序和基于悲观值迭代的规划阶段。该方法的遗憾界与函数类的复杂性紧密相关,并在针对线性函数逼近的情况下实现极小化的最优实例相关遗憾。在前期研究基础上,扩展到更一般的框架。
Oct, 2023
我们提出了新算法MQL-UCB,通过探索-利用困境实现了具有函数逼近的强化学习,解决了切换策略的成本和函数类复杂性的问题,同时在历史轨迹中利用了高数据效率,实现了最小化遗憾和最优切换成本。
Nov, 2023
我们提出了一种乐观的Q学习算法,用于在额外假设下的平均奖励强化学习中实现遗憾最小化,该额外假设是对底层MDP的所有策略来说,访问某些频繁状态s0的预期时间是有限的并且上界为H。
Jul, 2024