低切换成本可证明高效的 Q 学习
本文着重于线性马尔可夫决策过程(MDP)问题中的低转换成本,并提出了第一个具有低转换成本的线性 MDP 算法,同时通过低转换成本较小而达到了大体积的泛化。
Jan, 2021
本研究提出了一种新的算法 ELEANOR-LowSwitching,它在低固有贝尔曼误差的线性贝尔曼完成马尔可夫决策过程中实现了近乎最优的遗憾,轻量级的开销只是具有对数期和特征维度的情况,同时, 我们还证明了该算法具有次线性遗憾的所有算法之间成比例的下限,针对一般化的线性函数逼近,该算法可以被进一步利用利用它的 “翻倍技巧”,我们设计了一个样本效率高且开销接近最优的算法。
Feb, 2023
我们提出了新算法 MQL-UCB,通过探索 - 利用困境实现了具有函数逼近的强化学习,解决了切换策略的成本和函数类复杂性的问题,同时在历史轨迹中利用了高数据效率,实现了最小化遗憾和最优切换成本。
Nov, 2023
本文针对实际强化学习应用中新策略部署的高成本和策略更新次数必须较少的问题,提出了一种基于分阶段探索和自适应策略消除算法,实现了在低换乘成本下的回报 并且在已知的换乘成本中实现了指数级的改善。
Feb, 2022
本文提出一种基于 UCB 探索策略的 Q 学习算法并将其应用于无限时间序列的马尔可夫决策问题,实验结果表明算法的探索样本复杂度的上限为 O(SA/ε²(1-𝛾)⁷),此外该算法还可提高之前深度 Q 学习的表现。
Jan, 2019
该研究论文探讨了模型无关的强化学习算法的样本效率问题,证明了 Q-learning 与 UCB 探索策略可以实现最优的样本效率,且无需模拟器,达到了根据有限状态和动作数量计算得到的仅有单一 $\sqrt {H}$ 因子的遗憾率。
Jul, 2018
本文研究了预测中的不同类型自适应(非固定的)对手的强度,使用新概念的策略遗憾去衡量玩家的表现,特别关注记忆和切换成本的自适应对手,具有均摊 2/3 次幂的速率且强度显著较弱。
Feb, 2013
使用 UCB-Advantage 算法解决了有限时间间隔下马尔可夫决策过程的强化学习问题,证明了该算法得到了比以前更好的失望值,并且在并发强化学习中表现出了较低的本地切换成本。
Apr, 2020