连续时间下的 q 学习

Jul, 2022

q-Learning in Continuous Time

Yanwei Jia, Xun Yu Zhou

TL;DR本研究基于王等人 2020 年提出的熵正则探索性扩散过程公式，研究了连续时间下的 Q 学习，构建了独立于时间离散化的 q 函数学习理论，并应用该理论设计了 actor-critic 算法来解决强化学习问题，同时通过模拟实验验证了算法性能。

Abstract

We study the continuous-time counterpart of Q-learning for reinforcement learning (RL) under the entropy-regularized, exploratory diffusion process formulation introduced by Wang et al. (2020) As the conventional (big) Q-function collapses in continuous time, we consider its first-order approximation and coin the term "(little) q-function". This function is

continuous-time q-learning entropy-regularized diffusion process martingale theory actor-critic algorithms policy gradient

发现论文，激发创造

McKean-Vlasov 控制问题的连续时间 q 学习

本文研究连续时间 McKean-Vlasov 控制问题中的 q-learning 方法，探究了其定义及两种不同的 q 函数，提出了相应的学习算法，并在金融应用中进行了模拟实验。

Jun, 2023

连续时间风险敏感强化学习的二次变差惩罚

该研究论文探讨了基于熵正则化的探索性扩散过程形式下的连续时间风险敏感强化学习，包括风险敏感目标函数、马丁格尔观点和二次变化。通过这个特征描述，我们可以通过增加价值过程的实现方差来将非风险敏感 RL 算法应用于风险敏感场景，并证明了该算法在 Merton 投资问题中的收敛性，以及温度参数对学习过程行为的影响。此外，通过模拟实验，展示了风险敏感 RL 在线性二次控制问题中的有限样本性能改善。

Apr, 2024

基于交叉熵引导策略的连续动作 Q 学习

本文提出了一个名为 Cross-Entropy Guided Policies (CGP) 的新方法来将 Q-learning 与使用 Cross-Entropy Method (CEM) 的迭代采样策略相结合，以提高其在连续值动作域中的运行速度和稳定性。

Mar, 2019

使深度 Q 学习方法对时间离散化具有鲁棒性

本研究证明了 Q-learning 不存在于连续时间中，指出时间离散化的敏感性是 Deep Reinforcement Learning 具有鲁棒性的关键因素，提出了一种无模型的强化学习算法，能够在不同的时间离散化下稳健地工作。

Jan, 2019

连续强化学习的策略优化

研究了强化学习在连续时间和空间的设置下的应用，提出了购买力占据时间的概念，并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验，验证了此方法的有效性和优势。

May, 2023