具有loglog(T)切换成本的高样本效率强化学习
提出一种滑动窗口算法,针对变化的马尔可夫决策过程,同时考虑状态转移概率和奖励函数的变化。对于该问题,我们提供了性能保证,并表征了适用于我们算法的最优窗口大小。同时,我们还给出了算法采取的子优步数的样本复杂度界限以及一些实验结果来支持我们的理论分析。
May, 2018
本文提出了一种无模型的算法来学习具有折扣因子的马尔可夫决策过程中的政策,该算法的成功概率为(1-p),且具有样本复杂度O(SALn(1/p)/(ε^2(1-γ)^3)),其中S是状态数,A是行动数,γ是折扣因子,ε是一个近似阈值
Jun, 2020
本文着重于线性马尔可夫决策过程(MDP)问题中的低转换成本,并提出了第一个具有低转换成本的线性MDP算法,同时通过低转换成本较小而达到了大体积的泛化。
Jan, 2021
本文研究了在线学习与离线数据集学习两种环境下的样本有效的强化学习,提出了一个新的策略微调问题——在线 RL 中,学习者在某种意义下可以接近最优策略,并在马尔科夫决策过程(MDP) 中解决了这个问题。我们还提出了一个新的混合离线/在线策略微调算法,达到了更好的样本复杂度。
Jun, 2021
通过引入方差缩减策略,设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题,该算法的空间复杂度为$ O(SAH)$,较以前的算法提高了$S^5A^3$倍的效率。
Oct, 2021
本研究提出了一种新的算法ELEANOR-LowSwitching,它在低固有贝尔曼误差的线性贝尔曼完成马尔可夫决策过程中实现了近乎最优的遗憾,轻量级的开销只是具有对数期和特征维度的情况,同时, 我们还证明了该算法具有次线性遗憾的所有算法之间成比例的下限,针对一般化的线性函数逼近,该算法可以被进一步利用利用它的“翻倍技巧”,我们设计了一个样本效率高且开销接近最优的算法。
Feb, 2023
本文提出了一个模型自由的算法,通过方差降低和新颖的执行策略,解决了强化学习马尔可夫决策过程中无法实现遗憾最优和存在长时间燃烧期的问题,实现了短燃烧期下的最优采样效率。
May, 2023
在线强化学习中的数据效率是一个核心问题,本文针对有限时间不均匀马尔可夫决策过程,证明了一种修改版的单调值传播算法在理论上达到了最小化遗憾度的最优性,并且没有任何预烧成本,其样本复杂度也是最优的。
Jul, 2023
我们提出使用对数损失函数训练拟合Q-迭代(FQI-LOG)进行批量强化学习。我们证明了使用FQI-LOG学习接近最优策略所需要的样本数量与最优策略的累积成本成比例,而在问题中,如果行为最优则可以达到目标且不会产生成本,所以最优策略的累积成本为零。通过这样做,我们为批量强化学习中的“小成本”界限提供了一个通用框架,即与最优可达成成本成比例的界限。此外,我们经验证明,在最优策略可靠达到目标的问题上,FQI-LOG使用的样本比使用平方损失训练的FQI要少。
Mar, 2024