供应链强化学习中的策略模拟加速

Jun, 2024

供应链强化学习中的策略模拟加速

Speeding up Policy Simulation in Supply Chain RL

Vivek Farias, Joren Gijsbrechts, Aryan Khojandi, Tianyi Peng, Andrew Zheng

TL;DR使用 Picard 迭代算法在单个 GPU 上对供应链优化问题进行策略仿真，实现了 400 倍的实际加速，并在其他强化学习环境中证明了实际的有效性。

Abstract

Simulating a single trajectory of a dynamical system under some state-dependent policy is a core bottleneck in policy optimization algorit

trajectory dynamical system policy optimization supply chain optimization picard iteration

发现论文，激发创造

GPU 加速的价值迭代与模拟，在保质期库存控制中实现更远更快的前进

利用 GPU 加速技术运行价值迭代算法可以节省时间和计算资源，我们使用 Python 库 JAX 实现了该算法的高级 API，并依靠该库的函数转换和编译器来高效地利用 GPU 硬件。通过将该算法应用于实际场景，我们的研究表明这种方法的普惠性，可以在消费级 GPU 上进行大规模并行计算，适用于一系列运营研究中需要处理的大规模问题。

Mar, 2023

基于强化学习的路径规划：一种策略迭代方法

该研究针对强化学习参数的设计空间进行了设计空间探索，提出了基于自动调谐器的序数回归方法，可以加速收敛并实现 1.82 倍的峰值加速度和 1.48 倍的平均加速度。

Mar, 2023

带有并行可微模拟的加速策略学习

本文提出 SHAC 算法，该算法基于高性能可微分模拟器，可以有效利用模拟梯度，避免局部最小值问题，并通过截断学习窗口来避免梯度消失或爆炸。在控制任务中表现出更高的样本效率和更短的训练时间。

Apr, 2022

供应链库存管理的深度强化学习方法

本文提出使用强化学习和深度学习技术来解决供应链库存管理问题，提供了随机两阶段供应链环境的数学形式，并开发了一个公开的库，以便使用深度强化学习算法解决 SCIM 问题。实验结果表明，DRL 相对于标准的重新订购策略表现更好，因此可以被视为解决真实世界的问题的一种实用有效的选择。

Apr, 2022

使用深度强化学习处理不确定的季节性需求和交货时间的多级供应链

探讨了多级供应链中的生产计划和分配问题，利用深度增强学习技术 Proximal Policy Optimization（PPO2）来解决非线性不确定需求的问题，结果表明在有不确定性情况下，该方法更具优势。

Jan, 2022

策略迭代的概率采样法近似实现

本文提出了一种改进的策略迭代算法，使用分类器代替值函数，并将策略学习作为监督学习问题进行处理，解决了通过模拟评估策略时的核心抽样问题，实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升，并显著减少计算工作量。

May, 2008

基于策略迭代和蒙特卡罗策略评估的强化学习收敛性

本文提出解决一种强化学习中的长期悬而未决的问题，通过使用前瞻而非简单的贪心策略迭代来提高策略，同时在表格和函数逼近设置中都提供了结果。我们证明了这种策略迭代方案收敛于最优策略。

Jan, 2023

单时间尺度演员 - 评论家算法可证明找到全局最优策略

本研究主要研究了强化学习中最受欢迎的 Actor-Critic 算法的全局收敛性和全局最优性。作者在单时间尺度上进行更新，其中演员和评论家同时更新。研究结果表明，均使用线性或深度神经网络时，演员序列以 $O (K^{-1/2})$ 的次线性速率收敛于全局最优策略，尤其是当使用深度神经网络时，该算法首次找到非线性函数逼近情况下的全局最优策略。

Aug, 2020

强化学习中超越单步贪心方法

本文研究了改进策略和评估策略之间交替的着名 Policy Iteration 算法，以及其变体中多步向前的政策改进，形成了多步政策改进的变量，导出了新的算法并证明了其收敛性。此外，文章还展示了近期著名的强化学习算法实际上是我们框架的实例，阐明了它们的经验成功，为未来研究提供了推导新算法的方法。

Feb, 2018

Lambda-Policy Iteration: 评述与新实现

本文介绍了一种精确和近似动态规划的方法即 λ- 策略迭代，并讨论了基于模拟的费用函数逼近中的偏差和探索问题。此外，讨论了多种基于此方法的实现，其中一种实现是基于一种新的模拟方案，称为几何采样。

Jul, 2015