利用 GPU 加速技术运行价值迭代算法可以节省时间和计算资源,我们使用 Python 库 JAX 实现了该算法的高级 API,并依靠该库的函数转换和编译器来高效地利用 GPU 硬件。通过将该算法应用于实际场景,我们的研究表明这种方法的普惠性,可以在消费级 GPU 上进行大规模并行计算,适用于一系列运营研究中需要处理的大规模问题。
Mar, 2023
该研究针对强化学习参数的设计空间进行了设计空间探索,提出了基于自动调谐器的序数回归方法,可以加速收敛并实现 1.82 倍的峰值加速度和 1.48 倍的平均加速度。
本文提出 SHAC 算法,该算法基于高性能可微分模拟器,可以有效利用模拟梯度,避免局部最小值问题,并通过截断学习窗口来避免梯度消失或爆炸。在控制任务中表现出更高的样本效率和更短的训练时间。
Apr, 2022
本文提出使用强化学习和深度学习技术来解决供应链库存管理问题,提供了随机两阶段供应链环境的数学形式,并开发了一个公开的库,以便使用深度强化学习算法解决 SCIM 问题。实验结果表明,DRL 相对于标准的重新订购策略表现更好,因此可以被视为解决真实世界的问题的一种实用有效的选择。
探讨了多级供应链中的生产计划和分配问题,利用深度增强学习技术 Proximal Policy Optimization(PPO2)来解决非线性不确定需求的问题,结果表明在有不确定性情况下,该方法更具优势。
Jan, 2022
本文提出了一种改进的策略迭代算法,使用分类器代替值函数,并将策略学习作为监督学习问题进行处理,解决了通过模拟评估策略时的核心抽样问题,实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升,并显著减少计算工作量。
May, 2008
本文提出解决一种强化学习中的长期悬而未决的问题,通过使用前瞻而非简单的贪心策略迭代来提高策略,同时在表格和函数逼近设置中都提供了结果。我们证明了这种策略迭代方案收敛于最优策略。
Jan, 2023
本研究主要研究了强化学习中最受欢迎的 Actor-Critic 算法的全局收敛性和全局最优性。作者在单时间尺度上进行更新,其中演员和评论家同时更新。研究结果表明,均使用线性或深度神经网络时,演员序列以 $O (K^{-1/2})$ 的次线性速率收敛于全局最优策略,尤其是当使用深度神经网络时,该算法首次找到非线性函数逼近情况下的全局最优策略。
Aug, 2020
本文研究了改进策略和评估策略之间交替的着名 Policy Iteration 算法,以及其变体中多步向前的政策改进,形成了多步政策改进的变量,导出了新的算法并证明了其收敛性。此外,文章还展示了近期著名的强化学习算法实际上是我们框架的实例,阐明了它们的经验成功,为未来研究提供了推导新算法的方法。
Feb, 2018
本文介绍了一种精确和近似动态规划的方法即 λ- 策略迭代,并讨论了基于模拟的费用函数逼近中的偏差和探索问题。此外,讨论了多种基于此方法的实现,其中一种实现是基于一种新的模拟方案,称为几何采样。
Jul, 2015