金融领域可扩展操作的 CNN-DRL

Jan, 2024

CNN-DRL for Scalable Actions in Finance

Sina Montazeri, Akram Mirzaeinia, Haseebullah Jumakhan, Amir Mirzaeinia

TL;DR基于 MLP 的 DRL 在金融领域中存在着在行动规模增加时难以学习环境动态的问题，为解决这一问题，我们设计了一个 CNN 代理，在连续 90 天的每日特征向量数据上进行拼接，形成 CNN 输入矩阵。通过大量实验证明，与 MLP 代理相比，我们设计的 CNN 代理在初始环境设置上经历了损失，但保持稳定，能够有效学习环境并带来奖励增加。

Abstract

The published mlp-based drl in finance has difficulties in learning the dynamics of the environment when the action scale increases. If th

mlp-based drl finance learning dynamics cnn agent environment

发现论文，激发创造

金融领域中使用 Shuffled Features 的 CNN-DRL

在这项研究中，我们发现将卷积神经网络代理应用于深度强化学习的金融数据中，通过对特征向量进行特定排列，生成了一个 CNN 矩阵，从而更有效地定位相关特征，实验结果明确表明奖励得到了显著提升。

Jan, 2024

基于深度策略梯度方法的商品交易

深度强化学习方法在算法性商品交易中的有效性进行了研究，提出了一种新的离散化方案，通过优化交易成本和风险敏感的交易代理来提高 DRL 模型的性能，并且该模型在天然气期货交易中表现出较高的夏普比率及一定的风险自定义能力。

Aug, 2023

深度学习在金融市场预测中的应用

本文提出了基于一维卷积神经网络的金融市场预测模型，并通过历史交易数据严格回测，证明了该模型可以更有效地提取更一般化和信息丰富的特征，实现比之前的机器学习方法更强大且更有利润性的金融绩效。

Apr, 2021

基于图卷积神经网络的多智能体强化学习：电力市场发电策略的最优化竞价策略

本研究提出了一种基于 DRL 和 GCN 的分布式学习算法，使代理人能够通过从环境中获取反馈来改进投标策略并增加利润，同时将空间系统拓扑的信息输入到 GCN 中，帮助代理人了解系统结构并提高决策的准确性。在 IEEE 30-bus 系统和 IEEE 39-bus 系统的测试中表明该算法具有较好的泛化能力和更高的利润。

Aug, 2022

基于图神经网络的谷歌研究足球智能体

本文提出了一种基于图神经网络（GNN）的深度 Q 学习网络（DQN），在 Google Research Football 框架下，将卷积神经网络难以提取足够信息的小地图输入转化成图形式，优化了估计值函数并提高了通信效率。实验证明，该模型在玩足球游戏中表现优秀，且训练速度快于其他 DRL 模型。

Apr, 2022

基于深度神经网络的策略互动式学习与修正反馈

用 Deep COACH 方法基于人类纠正反馈进行深度强化学习训练，不需要奖励函数，可解决复杂问题，实验证明比 DRL 更快速地成功学习连续动作空间的策略。

Sep, 2018

基于递归卷积神经网络的强化学习

使用递归卷积神经网络的值迭代，以及部分可观测环境下的状态信念传递和最佳行动选择来更好地利用强化学习问题的固有结构，通过 RCNNs 回传梯度允许系统显式地学习与底层 MDP 相关联的变换模型和奖励函数，这是经典基于模型的 RL 的一种优秀替代方法。我们通过机器人规划问题的仿真来评估所提出的算法，并展示了我们框架降低重新规划成本、学习准确的 MDP 模型以及使用学习的模型重新规划以实现接近最优策略的能力。

Jan, 2017

深度强化学习遇见图神经网络：探索一种路由优化用例

本篇论文提出在 Deep Reinforcement Learning 技术中，将 Graph Neural Networks 集成进 DRL 代理中，以解决网络拓扑的泛化问题，并在路由优化的用例中测试并评估其性能，结果表明，在未曾训练过的网络拓扑中，DRL+GNN 代理能够胜过目前最先进的解决方案。

Oct, 2019

MAN: 多动作网络学习

我们提出了一种新的 DRL 算法 Multi-Action Networks Learning 来解决高维度大离散行动空间的问题，并实验验证得出，MAN 比当前用于大离散行动空间的异步时间差分算法更快地学习策略。

Sep, 2022

学习具有高成本特征的计算效率机器人

我们提出了一种通用的离线学习方法，其中考虑了输入特征的计算成本，通过将成本约束纳入到决策变换器的扩展中，从而在推断过程中限制其成本，使模型能够在每个时间步动态选择最佳输入特征。我们通过 D4RL 基准和类似于视频游戏中的复杂 3D 环境等多个任务展示了我们方法的有效性，并表明与传统方法相比，它能够在使用显著较少的计算资源的情况下实现类似的性能。

Aug, 2023