Jun, 2024

AlphaZeroES:直接最大化得分胜过规划损失最小化

TL;DR在单智能体环境中,通过直接最大化回合得分而不是最小化规划损失,可以在不改变蒙特卡洛树搜索算法和神经网络结构的情况下,优于 AlphaZero。