双重深度 Q 学习用于最优执行

Dec, 2018

Double Deep Q-Learning for Optimal Execution

Brian Ning, Franco Ho Ting Lin, Sebastian Jaimungal

TL;DR采用 Deep Q-Learning 算法，基于当前的交易信号和订单簿信息预测股票交易的最佳行动方案，并在九种不同的股票上进行了实验，在大多数股票上优于标准基准方法，且表现以超额收益率、超额率和收益 - 损失比为优。

Abstract

optimal trade execution is an important problem faced by essentially all traders. Much research into optimal execution uses stringent model assumptions and applies continuous time stochastic control to solve them. Here, we instead take a model free approach and develop a variation of <

optimal trade execution deep q-learning neural network limit order book stock trading

发现论文，激发创造

双 Q 学习的深度强化学习

本文针对 DQN 算法中 Q-learning 超估计行动价值的问题，提出了 Double Q-learning 算法，通过将其与深度神经网络结合得到了一种新的算法，并在数个游戏里得到了更好的表现。

Sep, 2015

使用深度 Q-Learning 控制优化超参数

本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义，它允许深度 Q 网络（DQN）学习控制优化超参数。我们使用经验重放的 Q 学习，训练两个 DQN 接受目标函数状态表示作为输入，并输出与学习率调整或保持不变的动作相关的预期折扣回报，即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同，Q - 梯度下降可以结合任何目标统计量，通过变化动作，我们可以深入了解成功的神经网络优化的学习率调整策略。

Feb, 2016

股票交易的实用深度强化学习方法

本文探讨了深度强化学习在优化股票交易策略方面的潜在性，并证明了所提出的深度强化学习方法在夏普比率和累积回报方面优于道琼斯工业平均指数和传统的最小方差组合策略。

Nov, 2018

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

交易的深度强化学习

采用深度强化学习算法设计交易策略，测试其在 50 种流动性最强的期货合约中的表现，并对商品、股票指数、固定收益和外汇市场等不同资产类别进行研究，证明该算法可以超越传统的时间序列动量策略模型，在重交易成本情况下实现正收益，且能够跟随市场趋势不改变仓位，并在调整期间进行缩减或持有。

Nov, 2019

面向可推广的交易执行的强化学习

优化交易执行是以最低交易成本在给定时间内出售（或购买）一定数量的资产。本研究主要针对优化交易执行中的过拟合问题进行全面研究，提出了离线强化学习模型（ORDC）来模拟最优交易执行，并通过学习紧凑的上下文表示来有效缓解过拟合问题。实验结果表明，该方法在历史限价挂单簿数据模拟器上取得了更好的性能。

May, 2023

外汇市场多智能体异步分布的交易优化深度强化学习方法

这项研究开创性地应用了多智能体强化学习（MA RL）框架与最先进的异步优势演员 - 评论家（A3C）算法，结果表明此方法可以更广泛和更快地探索不同的货币对，显著提高交易收益。此外，代理可以在较短时间内学习到更有利可图的交易策略。

May, 2024

使用强化学习的最优执行

本文研究了最优订单执行的问题，针对加密货币交易所的多样性，首次尝试通过多个交易所的数据进行交叉验证。与大多数以单一交易所信息为中心的研究不同，我们探讨了交叉交易信号对代理人决策的影响。实验结果表明，交叉交易信号可以为加密货币的最优执行提供额外的信息，以促进执行流程。

Jun, 2023

模仿再超越：双窗口去噪 PPO 多智能体最优执行

提出了一种使用强化学习与模仿学习解决最优执行和放置问题的新框架，该框架训练的 RL 智能体在执行成本方面始终优于行业基准 TWAP 策略，并在样本外交易日期和标的证券上表现出很好的泛化性能。

Jun, 2022

结合订单簿的深度学习和强化学习进行盈利交易

应用深度学习和强化学习结合，利用订单流量失衡进行多时间段预测收益的研究，为五种金融工具提供交易信号，并通过回测模拟和前期测试在零售交易平台验证了模型的潜力，但还需要进一步修改以应对零售交易成本、滑点和点差的波动。

Oct, 2023