Aug, 2022

亲和力基础强化学习代理的马尔科夫模型符号解释

TL;DR为了改善现有强化学习算法的透明度不足,研究人员开发了一种策略正则化方法,使用离散化马尔可夫模型的全局代理来复现基于个人消费行为的投资策略,并提出了一种针对这些策略全局内在亲和性的解释方法,以实现对策略行为的推理,从而提高其可解释性。