从赌徒模型到深度确定性策略梯度，具有情境信息的强化学习

Oct, 2023

从赌徒模型到深度确定性策略梯度，具有情境信息的强化学习

From Bandits Model to Deep Deterministic Policy Gradient, Reinforcement Learning with Contextual Information

Zhendong Shi, Xiaoli Wei, Ercan E. Kuruoglu

TL;DR在研究中，我们采用了两种方法来解决情境信息的问题：情境 Thompson 抽样和受监督的强化学习，这可以加速搜索最佳答案的迭代。为了研究量化市场中的战略交易，我们将之前的金融交易策略（常比例保险组合）与深度确定性策略梯度相结合。实验结果表明，两种方法都可以加速强化学习的进展，以获取最优解。

Abstract

The problem of how to take the right actions to make profits in sequential process continues to be difficult due to the quick dynamics and a significant amount of uncertainty in many application scenarios. In such complicated environments, reinforcement learning (RL), a reward-oriented

reinforcement learning sequential process financial problems quantitative trading markets deep deterministic policy gradient

发现论文，激发创造

强化学习方法将压缩上下文整合到知识图谱中

该研究提出了一种基于强化学习的方法，利用深度 Q 网络增强知识图谱中上下文信息的整合过程。实验结果表明，该方法在不同的标准知识图谱数据集上优于传统技术，准确实现了上下文整合，凸显了强化学习在增强和管理知识图谱方面的潜力和有效性。

Apr, 2024

自适应上下文强化学习

研究智能自主机器人如何通过新方法中的相对熵奖励学习算法来提高样本效率并使学习扩展到更广泛和尖锐的任务上。

Oct, 2019

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

离散 Markov 语境演变下的强化学习

本文基于贝叶斯方法和变分推断，通过运用适合马尔科夫过程建模的粘性 HDP 先验，提出了一种处理具有不可观测可变上下文、马尔科夫上下文演化和突发性上下文变化的情境相关强化学习问题的框架，并且在运用了上述框架后，成功地实现了在一些开放环境下的较高效政策学习，这也是其他同类方法做不到的。

Feb, 2022

资源受限的深度强化学习

为了优化城市资源分配，本文研究了基于 Deep RL 方法对于资源分配的约束条件以及对模拟器的表现

Dec, 2018

多臂赌博机策略对深度循环强化学习的影响

使用深度递归 Q - 网络和多臂赌博策略，研究自主驾驶情景中平衡探索和利用的方法，以及部分可观测系统中预测方向盘的影响。

Oct, 2023

无探索非策略深度强化学习

本文提出了一种新的批量约束强化学习算法，该算法可以从任意固定批量数据中有效学习，为解决强化学习中的一些关键问题提供可能性。

Dec, 2018

面向可推广的交易执行的强化学习

优化交易执行是以最低交易成本在给定时间内出售（或购买）一定数量的资产。本研究主要针对优化交易执行中的过拟合问题进行全面研究，提出了离线强化学习模型（ORDC）来模拟最优交易执行，并通过学习紧凑的上下文表示来有效缓解过拟合问题。实验结果表明，该方法在历史限价挂单簿数据模拟器上取得了更好的性能。

May, 2023

基于深度策略梯度方法的商品交易

深度强化学习方法在算法性商品交易中的有效性进行了研究，提出了一种新的离散化方案，通过优化交易成本和风险敏感的交易代理来提高 DRL 模型的性能，并且该模型在天然气期货交易中表现出较高的夏普比率及一定的风险自定义能力。

Aug, 2023

通过上下文元图强化学习实现具有高通用性和少样本适应性的随机动态电力调度

提出了一种新颖的上下文元图增强学习 (Meta-GRL) 方法，用于高度通用的多阶段最优调度策略，通过引入更通用的上下文马尔可夫决策过程 (MDP) 和可扩展的图表示来实现更通用的多阶段随机电力调度建模，经过足够的离线学习后，该方法可以快速适应未知和未定义的情景。

Jan, 2024