Jun, 2022

模仿再超越:双窗口去噪 PPO 多智能体最优执行

TL;DR提出了一种使用强化学习与模仿学习解决最优执行和放置问题的新框架,该框架训练的 RL 智能体在执行成本方面始终优于行业基准 TWAP 策略,并在样本外交易日期和标的证券上表现出很好的泛化性能。