Oct, 2023
从赌徒模型到深度确定性策略梯度,具有情境信息的强化学习
From Bandits Model to Deep Deterministic Policy Gradient, Reinforcement Learning with Contextual Information
Zhendong Shi, Xiaoli Wei, Ercan E. Kuruoglu
TL;DR在研究中,我们采用了两种方法来解决情境信息的问题:情境 Thompson 抽样和受监督的强化学习,这可以加速搜索最佳答案的迭代。为了研究量化市场中的战略交易,我们将之前的金融交易策略(常比例保险组合)与深度确定性策略梯度相结合。实验结果表明,两种方法都可以加速强化学习的进展,以获取最优解。