关键词approximate dynamic programming
搜索结果 - 12
- 多项式时间下的受限强化学习确定性策略
我们提出了一种新颖的算法,能够高效计算约束强化学习问题的近似最优确定性策略。该算法通过三个关键思想进行组合:(1)价值需求增强,(2)动作空间的近似动态规划,以及(3)时间空间的取整。在较弱的奖励假设下,我们的算法构成了一个对多样化成本准则 - 能效基站小区切换自适应动态规划
利用近似动态规划(ADP)基于在线优化的方法,在维持充分的服务质量(QoS)指标的同时,通过打开 / 关闭基站的方式减少网络功耗。通过使用多层感知器(MLP)来预测功耗和 QoS,以及长短期记忆(LSTM)进行手 over 预测,结合在线优 - 在 q^π 可实现的 MDPs 中进行自信近似策略迭代,以实现高效的本地规划
论文提出了一种新的拟动态规划算法 Confident Approximate Policy Iteration (CAPI),并将其应用于以局部模拟器为基础的规划问题中,该算法通过一系列策略来获得越来越精确的结果,在最小代价(内存和计算代价 - ICLR运动中的思考:深度强化学习与并发控制
本文研究了强化学习在控制系统中的并发控制问题,提出了一种基于连续时间贝尔曼方程的离散化方法,结合深度强化学习算法实现了一个新的近似动态规划方法,并在仿真和实际机器人抓取任务中进行了验证。
- 学习凸优化控制策略
本文介绍了一种利用凸优化控制策略的近似梯度来自动调节优化问题参数的方法,并在多个案例中进行了演示。
- AAAI基于神经网络的动态规划算法应用于顺风车拼车
本文提出了一种基于 Approximate Dynamic Programming (ADP) 的方法,使用神经网络近似值函数,并展示了与 Deep Reinforcement Learning 的联系,以应对近实时 ride-poolin - AAAI深度保守策略迭代
本文研究了将经典的 Conservative Policy Iteration 算法应用于深度强化学习中的实际问题,并引入了自适应混合比率的概念,通过在 Cartpole 问题和 Atari 游戏中的实验验证了该算法的有效性和稳定性,表明重 - MM近似动态规划的理论和数值分析及其近似误差
本研究探讨了近似动态规划中每次迭代的近似误差如何影响最终结果的质量,研究表明可以基于一些已知量和可验证的假设获得一定范围内的最优解,同时通过计算控制近似误差的上界得到系统稳定的充分条件,最后在轨道机动问题中验证了理论研究的假设并应用了稳定性 - 一个适用于单调价值函数的近似动态规划算法
提出了一种名为 Monotone-ADP 的算法,利用价值函数的单调性来提高收敛速度,在三个应用领域中展示了数值结果,可以用比计算最优解所需计算量少两个数量级的迭代次数获得高质量解决方案。
- 分解型 MDPs 的策略迭代
该论文提出了一种新的价值确定方法,借助简单的闭合计算来直接计算价值函数的分解逼近,以及一个基于此方法的策略迭代过程。
- 通过最小化分布健壮边界来近似动态规划
本文描述了一种新的近似动态规划方法 —— 分布式鲁棒性近似动态规划,通过最小化对策略损失的悲观界限来解决维度灾难,将 ADP 转化为优化问题,提高了现有 ADP 方法的理论保证。 DRADP 保证收敛和基于 L1 范数的误差界限,并在基准问 - ICML基于正则化的特征选择在近似线性规划中用于 Markov 决策过程
本文介绍了使用 $L_1$ 正则化方法的近似线性规划,以解决过多和丰富的特征对现有算法的过拟合问题,并为正则化的近似线性规划提供新的和更强的采样上界;并提出了计算有效的同伦方法。在简单的 MDPs 和基准问题上,提出的方法表现良好。