平滑贝尔曼误差嵌入的尖锐分析
本文使用 Nesterov 的平滑技术和 Legendre-Fenchel 变换将贝尔曼方程式重新构成一个新的原始对偶优化问题,并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题,其中可以使用任何可微分类函数。我们提供了通用非线性函数逼近的第一个收敛保证,并分析了算法的样本复杂度。经验上,我们的算法在几个基准控制问题中与最先进的基准线相比表现得非常好。
Dec, 2017
本文介绍了一种基于非线性机器学习的强化学习算法,该算法使用一种新的广义均方投影贝尔曼误差作为目标函数,可提高算法的稳定性和性能。
Apr, 2021
本文研究了值估计的梯度方法在强化学习中速度较慢的原因,提出了一种基于 Gauss-Newton 方向的低复杂度非批量化近端方法,并介绍了主要算法 RANS 及其在经典问题中的表现。
Jan, 2023
本论文针对非平稳 MDP 问题,提出了一种复杂度指标 Dynamic Bellman Eluder 维度和一种新的置信区间算法 SW-OPEA,通过对非平稳线性和表格 MDPs 的示例进行演示,表明该算法在小变化预算场景下性能优于现有的 UCB 类型算法,同时证明了当变化预算不显著大时,SW-OPEA 算法是可以有效地执行。
Jun, 2023
研究在近似线性行动价值函数的情况下,基于低内在 Bellman 误差的探索问题,给出了一种算法,其高概率的遗憾上界与特征维数和 Bellman 误差有关,同时将其与先前的工作进行了比较,在线性 MDP 的情况下,证明了这个算法具有统计效率。
Feb, 2020
使用具备无穷维特征的 Spectral Dynamics Embedding 结合实际的有限维截断近似来控制非线性随机系统的 Spectral Dynamics Embedding Control(SDEC)算法,探索了其截断近似和有限采样的近似所引起的误差,对摆锤问题进行了实证测试。
Apr, 2023
我们提出了一个新颖的算法框架来进行分布式强化学习,基于学习回报分布的有限维均值嵌入。我们基于此框架推导出了几个新的动态规划和时间差分学习算法,提供了渐近收敛理论,并对算法在一套表格任务上的实证性能进行了研究。此外,我们展示了这种方法可以与深度强化学习简单地结合,获得一个在 Arcade Learning Environment 上改进了基线分布式方法的新的深度强化学习代理。
Dec, 2023
通过引入一种新的稳定 Barzilai-Borwein (SBB) 方法,我们提出了一种叫做 SVRG-SBB 的随机算法,用于从相对相似性比较中学习表示,该方法不需要使用奇异值分解(SVD),具有良好的可扩展性以及自适应步长选择。 同时,我们通过仿真和实验的方法,展示了该算法与最先进的方法相比,具有更低的计算成本和良好的预测性能。
Nov, 2017
研究表明,采用经验贝叶斯收缩方法对赌博学习中的奖励估计进行优化,并基于窗口累积输入估计平滑的奖励估计,以应对延迟反馈和非稳态奖励导致的不完全知识问题,并通过数量模拟验证了该提案的优越性,可以在速度和稳定性之间取得平衡,为人类 - 有回路的顺序优化提供便利。
Jun, 2021