Dec, 2022

基于信息价值的强化学习中的探索率调整

TL;DR通过将基于信息价值的探索优化转化为寻找不断变化的探索率下的流的平衡问题,本文提出了一种高效的路径跟踪方案,以收敛到这些平衡,从而发现最佳的动作选择策略,并在一些 Nintendo GameBoy 游戏上进行了实验来证明这种方法的优越性。