Jan, 2024

强化学习的信息理论状态变量选择

TL;DR在本论文中,我们介绍了一种用于强化学习(RL)的信息论准则 Transfer Entropy Redundancy Criterion (TERC),该准则确定了训练过程中是否从状态变量到动作变量传递了信息熵。基于 TERC 的算法能够排除对智能体最终性能没有影响的状态变量,从而提高样本利用效率。实验证明这种加速方式在不同算法类别和各种环境中都存在。为了突出与现有特征选择方法的区别,我们在合成数据上进行了一系列对照实验,并推广到现实世界的决策任务。我们还引入了一种用贝叶斯网络紧凑地捕捉状态变量到动作变量的信息传递的问题表征。