模仿再超越：双窗口去噪 PPO 多智能体最优执行

Jun, 2022

模仿再超越：双窗口去噪 PPO 多智能体最优执行

Imitate then Transcend: Multi-Agent Optimal Execution with Dual-Window Denoise PPO

Jin Fang, Jiacheng Weng, Yi Xiang, Xinwen Zhang

TL;DR提出了一种使用强化学习与模仿学习解决最优执行和放置问题的新框架，该框架训练的 RL 智能体在执行成本方面始终优于行业基准 TWAP 策略，并在样本外交易日期和标的证券上表现出很好的泛化性能。

Abstract

A novel framework for solving the optimal execution and placement problems using reinforcement learning (RL) with imitation was proposed. The RL agents trained from the proposed framework consistently outperforme

reinforcement learning execution cost market features optimal execution trading

发现论文，激发创造

DPO: 差分强化学习及其在最优配置搜索中的应用

提出了第一个可以处理拥有有限训练样本和较短长度回合的差分强化学习框架，命名为差分策略优化（DPO）。DPO 是一种点对点和阶段对阶段迭代方法，通过本地运动算子编码的策略进行优化，具有可扩展性，且在基准实验中与几种流行的强化学习方法相比展现出有竞争力的结果。

Apr, 2024

双重深度 Q 学习用于最优执行

采用 Deep Q-Learning 算法，基于当前的交易信号和订单簿信息预测股票交易的最佳行动方案，并在九种不同的股票上进行了实验，在大多数股票上优于标准基准方法，且表现以超额收益率、超额率和收益 - 损失比为优。

Dec, 2018

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020

使用深度强化学习处理不确定的季节性需求和交货时间的多级供应链

探讨了多级供应链中的生产计划和分配问题，利用深度增强学习技术 Proximal Policy Optimization（PPO2）来解决非线性不确定需求的问题，结果表明在有不确定性情况下，该方法更具优势。

Jan, 2022

基于模型的策略优化与无监督模型适应

探究建模强化学习方法中真实和模拟数据之间的分布差异所带来的性能下降问题，并提出了一种全新的模型自适应框架 AMPO，使用 Wasserstein-1 距离来实现模型适应，结果在多项连续控制测试任务中实现了最先进的性能。

Oct, 2020

真知源于实践：通过强化学习使 LLMs 与具身环境对齐

通过将大型语言模型（LLMs）作为决策制定代理部署到 RL 中，我们提出了 TWOSOME，这是一个新颖的在线框架，无需准备数据集或环境先验知识，使 LLMs 能够高效地与具体环境进行交互和对齐。在广泛的实验中，我们评估了 TWOSOME 的性能，结果表明 TWOSOME 在经典决策制定环境和模拟家庭环境中均显著提高了样本效率和性能，并展示了优越的一般化能力和原始能力的保持。

Jan, 2024

使用双时间尺度策略梯度算法的基于分位数的深度强化学习

在强化学习中考虑累积奖励分位数优化的问题，使用神经网络参数化策略，提出了 Quantile-Based Policy Optimization（QPO）和 Quantile-Based Proximal Policy Optimization（QPPO）算法来解决深度强化学习问题，实验结果表明该方法在分位数优化指标下优于现有基准算法。

May, 2023

深度强化学习下的网络控制处理

探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用，为此针对马尔可夫决策过程和半马尔可夫决策过程问题，优化了现有的策略改进边界，并提出了新的策略改进边界，并使用定制的 PPO 算法对处理网络控制问题进行了解决。

May, 2022

DPO 相遇 PPO：针对 RLHF 的强化标记优化

在这篇研究中，我们介绍了一种将人类反馈引入加强学习的框架，并提出了一种基于标记级别信息的算法，通过学习标记级别的奖励函数并进行策略优化，从而有效地解决了传统深度强化学习中的挑战。

Apr, 2024

基于扩散模型的像素级强化学习：从丰富反馈中进行强化学习

扩展了基于人类反馈训练的静态扩散模型生成算法，提出了基于像素的策略优化算法 (PXPO)，通过针对每个像素提供更细致的奖励给模型。

Apr, 2024