Dec, 2023

在不完全市场中学习默顿的策略:递归熵规范化和偏倚高斯探索

TL;DR我们研究了Merton的预期效用最大化问题,该问题发生在一个不完全市场中,该市场除股票价格过程外还具有因子过程,其中所有模型原始数据都是未知的。我们采用强化学习方法直接学习最优的投资组合策略,通过对未知市场进行探索,而无需尝试估计模型参数。基于Wang等人于2020年提出的一般连续时间强化学习的熵正则化框架,我们提出了一种基于探索的递归加权方案,该方案通过过去累积的探索量内生地减少当前的探索奖励。这种递归正则化恢复了高斯探索的最优性。然而,与现有结果相反,由于对对冲和探索的相互需求,最优高斯策略通常是有偏的。我们对结果误差进行了渐近分析,以展示探索水平如何影响学习到的策略。此外,我们建立了一个策略改进定理,并设计了几种强化学习算法来学习Merton的最优策略。最后,我们在随机波动环境下进行了模拟和实证研究,以展示强化学习算法在效率和鲁棒性方面相对于传统的插件方法的优点。