ICMLJun, 2019

针对限价订单簿动态的逆强化学习研究

TL;DR本研究探讨了 IRL 是否能从金融随机环境(LOB)中的代理中推断出奖励,并使用先前的线性和高斯过程回归器以及自己的方法通过贝叶斯神经网络(BNN)来模拟其潜在奖励函数,说明非线性奖励函数产生的复杂行为可以通过推断来推断。