Dec, 2019

最优政策往往追求权力

TL;DR在强化学习中,我们证明了某些环境的对称性足以使最优策略倾向于在环境中寻求更多的控制力,以达到最大化平均奖励的目的。