Sep, 2024

通过减少价值和策略波动的链效应来改善深度强化学习

TL;DR本研究解决了深度强化学习中由于非平稳性导致的价值和策略预测波动的问题。我们提出了一种新方法“Churn Approximated ReductIoN (CHAIN)”,旨在减少这种波动链效应,从而提高学习表现。实验显示,该方法在多种强化学习设置中均有效降低了波动并提升了性能。