Jun, 2022

在带有上限的隐式探索下,插值softmax策略梯度和神经复制动力学

TL;DR论文介绍了一种名为神经复制动力学(NeuRD)的算法,通过引入隐式探索算法来构建 NeuRD-CIX 算法,并在序贯决策制定中展示了它的性能。