线性马尔可夫决策过程低切换成本可证效率算法
本研究提出了一种新的算法 ELEANOR-LowSwitching,它在低固有贝尔曼误差的线性贝尔曼完成马尔可夫决策过程中实现了近乎最优的遗憾,轻量级的开销只是具有对数期和特征维度的情况,同时, 我们还证明了该算法具有次线性遗憾的所有算法之间成比例的下限,针对一般化的线性函数逼近,该算法可以被进一步利用利用它的 “翻倍技巧”,我们设计了一个样本效率高且开销接近最优的算法。
Feb, 2023
本文介绍了一种基于加权线性回归方案的计算有效算法,用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾,具有较好的效率,对参数化转换动态有良好的适应性,可以对研究领域进行更细致的探讨。
Dec, 2022
本研究旨在探究具有有限自适应性的 PAC-MDP 算法,我们提出了一种以本地切换成本为度量标准的 Q-Learning with UCB2 exploration 算法,可在 H 步奖励 MDP 中实现次线性遗憾,适用于医学领域等现实应用场景。
May, 2019
本文考虑了控制具有大状态空间的马尔可夫决策过程以最小化平均成本的问题,并使用线性规划和两种方法,即基于随机凸优化和基于约束采样的方法,将性能提高到与在低维策略类中的任何策略相比的最佳水平。
Feb, 2014
提出一种新的随机线性规划算法,利用价值 - 策略对偶和二叉树数据结构,自适应地采样状态 - 动作 - 状态转移,并进行指数原始 - 对偶更新,从而以几乎线性的运行时间在最坏情况下找到一个 ε- 最优策略。当马尔可夫决策过程是遍历的并且以某些特殊的数据格式指定时,该算法使用线性的运行时间,在状态 - 动作对的总数中是次线性的,为解决随机动态规划问题提供了新的途径和复杂性基准。
Apr, 2017
本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程(MDP)最优模型 - free 算法 OPT-WLSVI,使用指数权重平滑地遗忘过去的数据,与先前的研究相比解决了遗忘策略上的技术差距,并分析了与最佳策略竞争的总遗憾是有上限的。
Oct, 2020
本文提出了一种针对状态空间较大的 MDP 问题进行优化的方法,该方法基于一小组策略的占用度量的低维度逼近,并提出了一个有效的算法,可用于在该类策略中找到低过度损失相对于最佳策略的策略。作者限定了平均成本和折扣成本情况下的过量损失,并在队列应用中展示了该方法的有效性。
Jan, 2019
该研究论文提出了第一个计算高效、无横向界限算法,其中采用了加权最小二乘法,以用于未知状态转移动态的估算,并能够应用于异构线性 bandits 中,达到了比已知算法更优的效果。
May, 2022
本文针对实际强化学习应用中新策略部署的高成本和策略更新次数必须较少的问题,提出了一种基于分阶段探索和自适应策略消除算法,实现了在低换乘成本下的回报 并且在已知的换乘成本中实现了指数级的改善。
Feb, 2022