Mar, 2024

停止回归:通过分类训练值函数用于可扩展深度强化学习

TL;DR将分类交叉熵用于训练价值函数可显著提高深度强化学习的扩展性。