McKean-Vlasov 控制问题的连续时间 q 学习

Jun, 2023

McKean-Vlasov 控制问题的连续时间 q 学习

Continuous-Time q-learning for McKean-Vlasov Control Problems

Xiaoli Wei, Xiang Yu

TL;DR本文研究连续时间 McKean-Vlasov 控制问题中的 q-learning 方法，探究了其定义及两种不同的 q 函数，提出了相应的学习算法，并在金融应用中进行了模拟实验。

Abstract

This paper studies the q-learning, recently coined as the continuous-time counterpart of q-learning by Jia and Zhou (2022c), for continuou

q-learning continuous-time mckean-vlasov control reinforcement learning financial applications

发现论文，激发创造

连续时间下的 q 学习

本研究基于王等人 2020 年提出的熵正则探索性扩散过程公式，研究了连续时间下的 Q 学习，构建了独立于时间离散化的 q 函数学习理论，并应用该理论设计了 actor-critic 算法来解决强化学习问题，同时通过模拟实验验证了算法性能。

Jul, 2022

统一的连续时间 q 学习方法用于均场博弈和均场控制问题

该论文从代理人的视角研究了含有均场跳扩散模型的连续时间 Q 学习。通过引入解耦形式的集成 Q 函数（解耦 Iq 函数）并与价值函数建立其鞅特性，该论文为均场博弈（MFG）和均场控制（MFC）问题提供了统一的策略评估准则。此外，根据解决 MFG 或 MFC 问题的任务，我们可以通过不同的方式使用解耦 Iq 函数学习均场平衡策略或均场最优策略。因此，该论文通过利用源自均场交互的所有测试策略，提出了适用于 MFG 和 MFC 问题的统一 Q 学习算法。通过具体的跳扩散设置示例，在 LQ 框架内外，我们可以获得解耦 Iq 函数和价值函数的确切参数化，并从代理人的视角展示了令人满意的算法性能。

Jul, 2024

基于 Tsallis 熵的连续时间 q-Learning 跳扩散模型

本文探讨了基于 Tsallis 熵正规化的连续时间强化学习与控制化跳扩散模型，包括 q 函数（Q 函数的连续时间对应）和 q 学习算法。我们建立了 q 函数在 Tsallis 熵下的鞅特征，并根据拉格朗日乘子是否可以明确推导，设计了两种不同的 q 学习算法。最后，我们应用这些算法解决了优化投资组合清算问题和非线性控制问题，并验证了优化策略的出色表现。

Jul, 2024

针对均场博弈和控制问题的统一强化学习 Q-Learning

本研究提出了一种强化学习算法，通过调整两个学习参数的比例，同一算法可以学习解决无限时间视角的均值场游戏与控制问题，并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题，并使用线性二次问题得到显式解作为算法结果的基准。

Jun, 2020

一个 Q 学习算法用于具有随机未知分布参数的离散时间线性二次控制：收敛和稳定性

本文针对离散时间线性系统和二次标准的随机参数情况，提出一种基于 Q-learning 精神的在线迭代算法来求解这个无限时间视角下的最优控制问题。第一定理证明了学习序列的收敛性、控制问题的良态性和代数 Riccati 方程的解的可解性三个属性的等价性。第二定理证明了在控制问题得到良态的前提下，学习序列的自适应反馈控制可以稳定系统。数值例子用于说明我们算法的可行性及有效性。

Nov, 2020

连续时间风险敏感强化学习的二次变差惩罚

该研究论文探讨了基于熵正则化的探索性扩散过程形式下的连续时间风险敏感强化学习，包括风险敏感目标函数、马丁格尔观点和二次变化。通过这个特征描述，我们可以通过增加价值过程的实现方差来将非风险敏感 RL 算法应用于风险敏感场景，并证明了该算法在 Merton 投资问题中的收敛性，以及温度参数对学习过程行为的影响。此外，通过模拟实验，展示了风险敏感 RL 在线性二次控制问题中的有限样本性能改善。

Apr, 2024

随机信息结构和非马尔可夫环境下的 Q 学习

我们提出了一个收敛定理，研究了在一般的、可能是非马尔可夫的随机环境下的随机迭代，特别是 Q 学习。我们给出了收敛的条件以及迭代的极限性质和收敛所需的环境和初始条件，并将此定理的应用扩展到各种随机控制问题中。

Oct, 2023

通过 Q 学习解决连续控制问题

本文提出了一种将单智能体控制转化为多智能体协作学习的方法 —— 将动作离散化并结合价值分解，从而将 Q-learning 方法应用于高维连续动作空间的情况，能够在学习来自特征或像素的信息的情况下与最先进的连续动作优化技术相匹敌，并在多种连续控制任务中表现出强大的性能。

Oct, 2022

软 Q 学习的有限时间误差分析：切换系统方法

本文旨在通过使用动态切换系统模型，针对两种 soft Q-learning 算法 (一种利用 log-sum-exp 操作符，另一种利用 Boltzmann 操作符)，提出新颖的有限时间控制论分析。我们希望通过与切换系统模型建立联系，加深对 soft Q-learning 的理解，并为其他强化学习算法的有限时间分析铺平道路。

Mar, 2024