Aug, 2024

优化可解释决策树策略以实现强化学习

TL;DR本研究解决了神经网络在强化学习中复杂性导致的可解释性问题,提出了一种新的算法DTPO,直接优化完整的决策树,以取代神经网络。通过使用回归的决策树启发式方法进行策略优化,实验证明DTPO在强化学习中对决策树策略的优化具有竞争力。