Jun, 2024

供应链强化学习中的策略模拟加速

TL;DR使用 Picard 迭代算法在单个 GPU 上对供应链优化问题进行策略仿真,实现了 400 倍的实际加速,并在其他强化学习环境中证明了实际的有效性。