GVFExplorer 通过使用方差估计和行为策略更新,实现了同时评估多个 GVFs 并减少环境交互的数据效率学习方法。
May, 2024
本研究探索了使用 GVF 和有向探索策略结合探索和辅助任务学习的方法来提高强化学习中的样本效率,实验表明该方法在不同大小的网格导航任务中表现出优异的性能。
Mar, 2022
使用基于强化学习的预测方法研究实际饮用水处理厂,描述数据集中的挑战和使用离线数据预训练临时差异学习代理的方法,并证明实时适应预测对于实际非平稳的大容量系统至关重要。
Dec, 2023
计算能力和人工智能的进步增加了对强化学习在库存管理中的兴趣,本论文对这些方法提供了理论基础,并探讨了将政策结构限制为几十年来库存理论所熟知的结构的好处。我们利用 Vapnik-Chervonenkis 理论证明了对学习几种众所周知的库存策略(包括基准库存量和 (s, S) 策略)的泛化保证,应用了 Pseudo-dimension 和 Fat-shattering 维度的概念来确定库存策略的泛化能力。我们的研究结果从管理角度提供了以下见解:首先,在库存管理中存在 “学得越少越好” 的原则,根据可用的数据量,限制自己到一个更简单但次优的库存策略类别可能是有益的,以最小化过拟合误差。其次,策略类别中的参数数量可能并不是衡量过拟合误差的正确指标:事实上,由 T 个时变基准库存水平定义的策略类别的泛化误差与两个参数的 (s, S) 策略类别相当。最后,我们的研究建议在黑盒学习机器中将基准库存和库存位置的概念纳入,而不是让这些机器直接学习订购量行动。
Apr, 2024
本文提出了一种基于强化学习的库存管理系统,主要解决现实供应链环境下的计算需求和奖励框架等问题,并通过 GPU 并行化环境和状态动态规划等创新来优化大型零售商供应链需要。该系统实现了区别于基础库存策略的控制策略,并给出了未来研究方向的讨论。
Apr, 2023
从分布角度研究杂货店的库存补货问题,以最大化销售和最小化浪费为目标,将库存补货作为一种新的强化学习任务,引入新的基于真实杂货店数据和专业知识的强化学习环境,并提出了 GLDQN 算法,学习奖励空间中的一般化 λ 分布,针对环境未来行为的不确定性,证明分布式方法是解决此类问题的良好方法,并在生成的浪费和总体奖励方面优于其他分布式强化学习算法。
May, 2022
这篇文章提出了一种基于元梯度的全局价值函数(GVFs)发现方法,从而让强化学习(RL)代理能够发现自身的问题并通过学习答案来获得未预期的有用知识和技能,在 Atari 2600 电子游戏中,这些辅助任务通过与主任务一起元学习的方式可以提高一个演员 - 评论家代理的数据效率。
Sep, 2019
本研究提出了一种名为 WVF 的目标导向通用价值函数,旨在将任务解决方法与该代理人环境下的其他目标达成任务相结合,证明了这一方法可以提高学习和规划效率。
Jun, 2022
研究了基于强化学习的仓库库存管理算法,该算法可以用于产品和零售商数量都庞大的供应链系统,并提供了一种训练阶段中模拟系统的近似方法来解决处理大型系统的计算问题,实验证明了该算法可以成功地处理大型供应链网络。
Apr, 2022
提出了一种将强化学习与反馈图和内在动机探索相结合的决策框架,以提高应用强化学习在库存控制中的样本效率。
Jun, 2024