May, 2022

GLDQN: 显式参数化分位数强化学习在废弃物减少中的应用

TL;DR从分布角度研究杂货店的库存补货问题,以最大化销售和最小化浪费为目标,将库存补货作为一种新的强化学习任务,引入新的基于真实杂货店数据和专业知识的强化学习环境,并提出了 GLDQN 算法,学习奖励空间中的一般化 λ 分布,针对环境未来行为的不确定性,证明分布式方法是解决此类问题的良好方法,并在生成的浪费和总体奖励方面优于其他分布式强化学习算法。