低切换成本可证明高效的 Q 学习

May, 2019

Provably Efficient Q-Learning with Low Switching Cost

Yu Bai, Tengyang Xie, Nan Jiang, Yu-Xiang Wang

TL;DR本研究旨在探究具有有限自适应性的 PAC-MDP 算法，我们提出了一种以本地切换成本为度量标准的 Q-Learning with UCB2 exploration 算法，可在 H 步奖励 MDP 中实现次线性遗憾，适用于医学领域等现实应用场景。

Abstract

We take initial steps in studying pac-mdp algorithms with limited adaptivity, that is, algorithms that change its exploration policy as infrequently as possible during →

pac-mdp algorithms exploration policy regret minimization q-learning ucb2 exploration

发现论文，激发创造

线性马尔可夫决策过程低切换成本可证效率算法

本文着重于线性马尔可夫决策过程（MDP）问题中的低转换成本，并提出了第一个具有低转换成本的线性 MDP 算法，同时通过低转换成本较小而达到了大体积的泛化。

Jan, 2021

低转移成本的多项式逻辑赌博机

研究在多项式逻辑赌博算法中探索动作改变尽可能少的限制自适应性，在实现几乎最优的极小化遗憾时，提出两种自适应性的度量：混合替换成本和更精细的项替换成本。

Jul, 2020

超越线性马尔可夫决策过程中的对数切换成本在强化学习中应用

本研究提出了一种新的算法 ELEANOR-LowSwitching，它在低固有贝尔曼误差的线性贝尔曼完成马尔可夫决策过程中实现了近乎最优的遗憾，轻量级的开销只是具有对数期和特征维度的情况，同时，我们还证明了该算法具有次线性遗憾的所有算法之间成比例的下限，针对一般化的线性函数逼近，该算法可以被进一步利用利用它的 “翻倍技巧”，我们设计了一个样本效率高且开销接近最优的算法。

Feb, 2023

强化学习通用函数逼近的近乎最优低切换算法

我们提出了新算法 MQL-UCB，通过探索 - 利用困境实现了具有函数逼近的强化学习，解决了切换策略的成本和函数类复杂性的问题，同时在历史轨迹中利用了高数据效率，实现了最小化遗憾和最优切换成本。

Nov, 2023

具有 loglog (T) 切换成本的高样本效率强化学习

本文针对实际强化学习应用中新策略部署的高成本和策略更新次数必须较少的问题，提出了一种基于分阶段探索和自适应策略消除算法，实现了在低换乘成本下的回报并且在已知的换乘成本中实现了指数级的改善。

Feb, 2022

具有切换成本的近优敌对强化学习

本文尝试解决如何开发一种可证明高效的带有转换代价的对抗性 RL 算法的问题，并提出了两种新颖的降低转换代价的算法，其回归分析证明了它们的近乎最优性能。

Feb, 2023

带有 UCB 探索的 Q-learning 对于无限时域 MDP 具有样本效率

本文提出一种基于 UCB 探索策略的 Q 学习算法并将其应用于无限时间序列的马尔可夫决策问题，实验结果表明算法的探索样本复杂度的上限为 O（SA/ε²(1-𝛾)⁷），此外该算法还可提高之前深度 Q 学习的表现。

Jan, 2019

Q 学习是否可以被有效证明？

该研究论文探讨了模型无关的强化学习算法的样本效率问题，证明了 Q-learning 与 UCB 探索策略可以实现最优的样本效率，且无需模拟器，达到了根据有限状态和动作数量计算得到的仅有单一 $\sqrt {H}$ 因子的遗憾率。

Jul, 2018

具有切换成本和其他自适应对手的在线学习

本文研究了预测中的不同类型自适应（非固定的）对手的强度，使用新概念的策略遗憾去衡量玩家的表现，特别关注记忆和切换成本的自适应对手，具有均摊 2/3 次幂的速率且强度显著较弱。

Feb, 2013

参考优势分解下几乎最优无模型强化学习

使用 UCB-Advantage 算法解决了有限时间间隔下马尔可夫决策过程的强化学习问题，证明了该算法得到了比以前更好的失望值，并且在并发强化学习中表现出了较低的本地切换成本。

Apr, 2020