关键词sequential decision problem
搜索结果 - 4
- 多路径环境中的离散概率推断作为控制
通过在整个马尔可夫决策过程中近似强制执行流的守恒,我们扩展了最近的方法来纠正奖励,以确保最优最大熵强化学习策略引发的边缘分布与原始奖励成比例。
- 利用深度强化学习进行自适应大邻域搜索的运算符选择
本文提出了一种基于深度强化学习算法的算子选择方法,旨在提高 Adaptive Large Neighborhood Search(ALNS)算法的解题质量,实证结果表明,与基于机器学习的算法相比,所述方法训练次数更少,对小型问题与大型问题都 - 强化学习推荐系统综述
本文对基于强化学习的推荐系统进行了综述,提出了一个 RLRS 框架,包括状态表示,策略优化,奖励制定和环境构建,并针对 RLRS 算法进行了调查,强调出现的主题并展示了各种图表。
- Hyp-RL : 通过强化学习进行超参数优化
本论文将超参数优化问题建模为一系列决策问题,并用强化学习方法来解决,通过优化选择下一个待优化的超参数,从而提高模型性能。在 50 个数据集上的实验表明,该方法优于目前超参数学习领域的其他方法。