Jan, 2022

强化学习的动态时间调节

TL;DR本文提出了一种基于马尔可夫决策过程的动态和可定制的时间差分强化学习方法,旨在利用高频实际数据来改进低频数据的预测,进而改善长期预测的准确性。该方法相较于仅使用历史低频数据,显著提升了长期预测效果,并突显出低频预测可以提升高频预测,同时高频数据也可以为低频预测提供影响。