Oct, 2023

从赌徒模型到深度确定性策略梯度,具有情境信息的强化学习

TL;DR在研究中,我们采用了两种方法来解决情境信息的问题:情境 Thompson 抽样和受监督的强化学习,这可以加速搜索最佳答案的迭代。为了研究量化市场中的战略交易,我们将之前的金融交易策略(常比例保险组合)与深度确定性策略梯度相结合。实验结果表明,两种方法都可以加速强化学习的进展,以获取最优解。