Feb, 2024

面向分布偏移的风险敏感型软演员 - 评论家算法的深度强化学习

TL;DR我们研究了深度强化学习算法在运营研究领域的上下文多阶段随机组合优化问题中对分布变化的鲁棒性。我们提出了一种新的风险敏感深度强化学习算法,并通过数值实验验证其对现实分布变化的鲁棒性。通过与风险中性算法和两种基准方法进行比较,我们展示了我们的算法在上下文多阶段随机组合优化问题中鲁棒性的优越性。