Jun, 2023

通过因果起源表示解决强化学习中的非稳态问题

TL;DR本文提出了一种新的非稳态强化学习的方法,即使用Causal-Origin REPresentation(COREP)算法,该算法主要利用引导更新机制来学习状态的稳定图表示,由此得到的策略对非稳态具有鲜明的适应性优势。