GLDQN: 显式参数化分位数强化学习在废弃物减少中的应用

May, 2022

GLDQN: 显式参数化分位数强化学习在废弃物减少中的应用

GLDQN: Explicitly Parameterized Quantile Reinforcement Learning for Waste Reduction

Sami Jullien, Mozhdeh Ariannezhad, Paul Groth, Maarten de Rijke

TL;DR从分布角度研究杂货店的库存补货问题，以最大化销售和最小化浪费为目标，将库存补货作为一种新的强化学习任务，引入新的基于真实杂货店数据和专业知识的强化学习环境，并提出了 GLDQN 算法，学习奖励空间中的一般化 λ 分布，针对环境未来行为的不确定性，证明分布式方法是解决此类问题的良好方法，并在生成的浪费和总体奖励方面优于其他分布式强化学习算法。

Abstract

We study the problem of restocking a grocery store's inventory with perishable items over time, from a distributional point of view. The objective is to maximize sales while minimizing waste, with uncertainty about the actual consumption by costumers. This problem is of a high relevance today, given the growing demand for food and the impact of food waste on

inventory restocking reinforcement learning stochastic behavior distributional approach waste minimization

发现论文，激发创造

库存管理的协作多智能体强化学习

本文提出了一种基于强化学习的库存管理系统，主要解决现实供应链环境下的计算需求和奖励框架等问题，并通过 GPU 并行化环境和状态动态规划等创新来优化大型零售商供应链需要。该系统实现了区别于基础库存策略的控制策略，并给出了未来研究方向的讨论。

Apr, 2023

隐式分位数网络用于分布式强化学习

本文介绍了一种基于分布式强化学习的方法，通过使用分位回归来逼近状态 - 动作回报分布的全量位函数来得到一个灵活、高效且可应用于各种环境的动态规划方法，并通过在 57 个 Atari 2600 游戏中的表现来展示算法的性能，并使用其隐式定义的分布来研究风险敏感性政策在 Atari 游戏中的效果。

Jun, 2018

使用通用价值函数学习领域支持的库存管理策略

一个使用强化学习和通用值函数的库存管理方法，通过域支持的库存补货策略实现了平衡可用性和浪费等目标，并提供了对决策的领域支持洞察。

Nov, 2023

供应链库存管理的深度强化学习方法

本文提出使用强化学习和深度学习技术来解决供应链库存管理问题，提供了随机两阶段供应链环境的数学形式，并开发了一个公开的库，以便使用深度强化学习算法解决 SCIM 问题。实验结果表明，DRL 相对于标准的重新订购策略表现更好，因此可以被视为解决真实世界的问题的一种实用有效的选择。

Apr, 2022

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在 Atari 2600 游戏中，该算法的表现显著优于许多 DQN 的改进方案，包括相关的分布式算法 C51。

Oct, 2017

基于视觉感知的风险感知机器抓取的分位数 QT-Opt

本研究探讨利用分布式 Q-learning 算法的分布透视理论在连续状态空间下的应用，提出了一种新的基于分位数的 Q-learning 算法 Q2-Opt，成功应用于视觉机器人夹取任务，并探究了其风险扭曲函数，同时采用批量强化学习算法进行实验，与以往变量离散的实验结果对比，结果表明 Q2-Opt 在机器人夹取任务机器人夹取成功率上的表现更为优异。

Oct, 2019

基于分布式强化学习的高效探索技术

本论文提出的一种深度深度强化学习探索方法具有两个组成部分：有一个递减的时间表来抑制内在不确定性，一个探索奖励是从所学分布的上分位数中计算出来的，实验结果表明，我们的算法在 14 个 Atari 2600 游戏中有 12 个游戏取得了比 QR-DQN 更好的成绩，在难度较大的 3D 驾驶模拟器 (CARLA) 中，我们的算法安全奖励达到了近乎最优，比 QRDQN 快两倍。

May, 2019

方差减少的分布鲁棒 Q 学习的样本复杂性

本论文提出了两种模型无关的算法，分别是分布鲁棒的 Q-learning 及其方差缩减的版本。这些算法可在处理分布移位时有效地学习强大的策略。在一系列数值实验中，这些算法的理论发现和效率得到了证实。

May, 2023

基于价值分布的模型化强化学习

基于模型的贝叶斯强化学习视角，本研究旨在学习马尔科夫决策过程中基于参数（认知）不确定性引发的值函数后验分布的不确定性，通过引入一个 Bellman 算子，我们提出了 Epistemic Quantile-Regression (EQR) 算法，该算法学习了一个值函数分布，可用于策略优化，在几个连续控制任务中进行评估，表现优于已建立的基于模型和无模型算法。

Aug, 2023

多产品库存管理中处理不确定交货期的基于学习的框架

本文考虑供应链中存在的交货期不确定性和因此导致的库存管理性能下降问题，提出了一种基于强化学习的延迟解决方法，并在多种不确定性的情景下进行了实证评估，证明该方法可以实现接近最优的性能。

Mar, 2022