Oct, 2021

NeurWIN:深度强化学习的神经 Whittle 指数网络用于不安静的赌博机

TL;DR本文提出了一种名为 NeurWIN 的神经 Whittle 指标网络,通过利用 Whittle 指标的数学性质,学习任何不平静机器的 Whittle 指标。我们证明了生成 Whittle 指标的神经网络也是为一组马尔可夫决策问题生成最优控制的神经网络,并演示了 NeurWIN 的实用性,评估其在三个不平静机器问题中的表现。我们的实验结果表明,NeurWIN 的性能明显优于其他强化学习算法。