企业债交易的强化学习：卖方视角

Jun, 2024

企业债交易的强化学习：卖方视角

Reinforcement Learning for Corporate Bond Trading: A Sell Side Perspective

Samuel Atkins, Ali Fathi, Sammy Assefa

TL;DR为了优化交易者的预期利润最大化的目标，本文使用强化学习方法，通过数据驱动的方式估计一个最优的买卖价差报价策略，并进行了广泛的结果分析来验证训练代理的行为合理性。

Abstract

A corporate bond trader in a typical sell side institution such as a bank provides liquidity to the market participants by buying/selling securities and maintaining an inventory. Upon receiving a request for a bu

发现论文，激发创造

强化学习市场做市

本文提出了一种高保真度的极限订单簿交易市场模拟，并使用其设计了一个使用时序差分强化学习方法的市场制造代理，为此我们使用线性组合的“瓷砖编码”作为价值函数逼近器，并设计了一个自定义的奖励函数，控制库存风险。通过显示我们的代理优于简单基准策略和文献中的最新在线学习方法，我们展示了我们方法的有效性。

Apr, 2018

交易的深度强化学习

采用深度强化学习算法设计交易策略，测试其在 50 种流动性最强的期货合约中的表现，并对商品、股票指数、固定收益和外汇市场等不同资产类别进行研究，证明该算法可以超越传统的时间序列动量策略模型，在重交易成本情况下实现正收益，且能够跟随市场趋势不改变仓位，并在调整期间进行缩减或持有。

Nov, 2019

深度股票交易：一种层次化强化学习框架用于投资组合优化和订单执行

提出了一种基于层次化强化学习的股票交易系统，将交易过程分解为管理和执行交易两个级别，并通过预训练和迭代训练方式对两个层级的策略进行训练，从而实现长期收益的最大化和交易成本的最小化。在美股市场和中国股市的实验证明了此方法的显著效果提升。

Dec, 2020

强化学习在交易系统中的应用：调查

本研究基于强化学习技术的理论基础和概念，对29篇相关研究进行了综合分析和比较，总结出了当前的系统设计最佳实践、需要进一步研究的领域和有前途的研究机会。此外，本文还试图通过帮助研究人员遵守标准和避免偏离强化学习构造的坚实基础来促进该领域的发展。

Nov, 2022

风险感知的循环强化学习在配对交易中的应用

介绍了一种名为CREDIT的风险感知代理策略，能够像专业人士一样学习利用长期交易机会进行对冲交易。CREDIT是首个应用双向GRU和时态关注机制，以捕捉两种资产价格走势的长期模式来实现更高的利润的代理策略。实验表明，它在对冲交易中优于现有的强化学习方法，并在五年的美国股票数据中获得了显着的盈利。

Apr, 2023

基于数据跨分割的强化学习算法交易中的改进泛化

在这项研究中，我们提出了一种用于算法交易的强化学习（RL）算法，该算法基于来自学习预测模型的信号并解决了在薄交易金融市场和不同资产市场中交易策略必须考虑更难改变的持仓的长期影响这些挑战。我们在马来西亚证券交易所20多年的股票数据上测试了我们的算法。

Jul, 2023

将强化学习应用于期权定价和对冲

该论文概述了最近在定价和对冲金融工具方面强化学习的最新进展，重点详细解释了Halperin（2017）引入的Q-Learning Black Scholes方法，该方法将传统的Black and Scholes（1973）模型与新颖的人工智能算法相结合，实现了完全无模型、数据驱动的期权定价和对冲。该论文还探讨了该算法在不同状态变量和欧式看跌期权场景下的表现。结果显示，该模型在不同波动率水平和对冲频率下是准确的估计器。此外，该方法在各种看跌期权价内外都表现出稳健的性能。最后，该算法考虑了比例交易成本，表明不同状态变量的统计特性对盈亏产生了不同的影响。

Oct, 2023

ZeroSwap：基于数据驱动的DeFi最佳市场做市

提出了第一个最优贝叶斯算法和第一个无模型数据驱动算法以在市场制造者的价格上实现优化，通过估算外部市场价格来平衡信息交易者的损失和噪声交易者的利润，无需价格预言机或损失预言机，并提供了理论上的性能保证和经济上对不同市场条件的稳健性实证表明。

Oct, 2023

基于可屏蔽股票表示的强化学习在可定制股票池中的投资组合管理

通过一次性训练全球股票池中的可定制股票池，提出了具有可屏蔽股票表示的增强学习框架EarnMore，通过掩盖目标池外的股票的表示、学习有意义的股票表示和重新加权机制，在8个美国股票市场的子集股票池上的大量实验证明，EarnMore在利润上的6个常用金融指标上显著优于14种最新算法，达到了超过40%的提升。

Nov, 2023

基于强化学习的双向交易与借贷优化投资组合

本研究针对高风险环境中的投资组合管理，提出了一种基于强化学习的模型，克服了传统模型的局限性。通过引入新的环境表述和基于盈亏的奖励函数，该方法提升了风险管理与资本优化能力，在市场波动较大的情况下显著提高了收益风险比，并实现了可观的盈利能力。

Aug, 2024