Apr, 2018

强化学习市场做市

TL;DR本文提出了一种高保真度的极限订单簿交易市场模拟,并使用其设计了一个使用时序差分强化学习方法的市场制造代理,为此我们使用线性组合的 “瓷砖编码” 作为价值函数逼近器,并设计了一个自定义的奖励函数,控制库存风险。通过显示我们的代理优于简单基准策略和文献中的最新在线学习方法,我们展示了我们方法的有效性。