基于Tsallis熵的连续时间q-Learning跳扩散模型

Jul, 2024

基于Tsallis熵的连续时间q-Learning跳扩散模型

Continuous-time q-Learning for Jump-Diffusion Models under Tsallis Entropy

Lijun Bo, Yijie Huang, Xiang Yu, Tingting Zhang

TL;DR本文探讨了基于Tsallis熵正规化的连续时间强化学习与控制化跳扩散模型，包括q函数（Q函数的连续时间对应）和q学习算法。我们建立了q函数在Tsallis熵下的鞅特征，并根据拉格朗日乘子是否可以明确推导，设计了两种不同的q学习算法。最后，我们应用这些算法解决了优化投资组合清算问题和非线性控制问题，并验证了优化策略的出色表现。

Abstract

This paper studies continuous-time reinforcement learning for controlled jump-diffusion models by featuring the q-function (the continuous-time counterpart of Q-function) and the →

发现论文，激发创造

Tsallis强化学习：最大熵强化学习的统一框架

本文提出了一种新的马尔可夫决策过程类别Tsallis MDPs，用于强化学习问题和各种类型熵的使用，包括标准Shannon-Gibbs熵，并使用一个额外的实数值参数，称为熵指数，控制了勘探倾向和优化政策的不同维度，所提出方法采用Tsallis的熵极大化，并以无模型演员-评论家策略进行实现，在MuJoCo模拟器上进行验证并取得最先进的性能。

Jan, 2019

Q-Munchausen 强化学习

本文针对Munchausen强化学习在Tsallis sparsemax策略下无法表现出优越性能的问题，提出了基于Tsallis Entropy的$q$-logarithm/exponential方法，解决了传统logarithm和非logarithmic Tsallis entropy之间的不匹配问题，使M-RL能在Tsallis entropy框架下实现隐式的KL规则正化，同时在标准测试问题上取得了超越表现。

May, 2022

通过优势学习施行KL正则化的一般Tsallis熵强化学习

通过强制隐式Kullback-Leibler（KL）正则化来提高Maximum Tsallis entropy（MTE）框架对非闭合形式Tsallis熵的误差鲁棒性。提出的Tsallis Advantage Learning（TAL）方法在广泛的实验中得到验证，不仅在各种非闭合形式的Tsallis熵上显著优于Tsallis-DQN，而且表现出与最先进的Shannon熵算法相当的性能。

May, 2022

连续时间下的q学习

本研究基于王等人2020年提出的熵正则探索性扩散过程公式，研究了连续时间下的Q学习，构建了独立于时间离散化的q函数学习理论，并应用该理论设计了actor-critic算法来解决强化学习问题，同时通过模拟实验验证了算法性能。

Jul, 2022

随机博弈的高效Q学习

本文提出了新的高效Q学习动态应用于随机博弈，使智能体能够遵循阶段游戏中的对数线性学习动态，通过逐步迭代估计Q函数，实现高效平衡，并通过逐渐减小步长的方式使其收敛，同时还研究了 softmax 响应在此过程中产生的近似误差。

Feb, 2023

McKean-Vlasov控制问题的连续时间q学习

本文研究连续时间McKean-Vlasov控制问题中的q-learning方法，探究了其定义及两种不同的q函数，提出了相应的学习算法，并在金融应用中进行了模拟实验。

Jun, 2023

在不完全市场中学习默顿的策略：递归熵规范化和偏倚高斯探索

我们研究了Merton的预期效用最大化问题，该问题发生在一个不完全市场中，该市场除股票价格过程外还具有因子过程，其中所有模型原始数据都是未知的。我们采用强化学习方法直接学习最优的投资组合策略，通过对未知市场进行探索，而无需尝试估计模型参数。基于Wang等人于2020年提出的一般连续时间强化学习的熵正则化框架，我们提出了一种基于探索的递归加权方案，该方案通过过去累积的探索量内生地减少当前的探索奖励。这种递归正则化恢复了高斯探索的最优性。然而，与现有结果相反，由于对对冲和探索的相互需求，最优高斯策略通常是有偏的。我们对结果误差进行了渐近分析，以展示探索水平如何影响学习到的策略。此外，我们建立了一个策略改进定理，并设计了几种强化学习算法来学习Merton的最优策略。最后，我们在随机波动环境下进行了模拟和实证研究，以展示强化学习算法在效率和鲁棒性方面相对于传统的插件方法的优点。

Dec, 2023

离线强化学习中的熵正则化扩散策略与Q-集合

这篇论文介绍了用于离线强化学习的训练扩散策略的先进技术。核心是一种均值回归的随机微分方程(SDE)，它将复杂的动作分布转化为标准的高斯分布，然后在已知环境状态的条件下采样动作，这类似于典型的扩散策略。我们证明了这种SDE有一个解，可以用来计算策略的对数概率，从而产生一个熵正则化项，改善离线数据集的探索性能。为了减轻来自分布外数据点的不准确值函数的影响，我们进一步提出了学习Q-集合的下界，以实现更强壮的策略改进。通过将熵正则化的扩散策略与Q-集合结合在离线强化学习中，我们的方法在D4RL基准测试中实现了最先进的性能。

Feb, 2024

平滑 Q-learning 算法的统一ODE分析

通过异步强化学习和平滑版本的简化框架，提出了更加广泛和统一的Q-learning及其平滑变体的收敛性分析方法。

Apr, 2024

统一的连续时间q学习方法用于均场博弈和均场控制问题

该论文从代理人的视角研究了含有均场跳扩散模型的连续时间Q学习。通过引入解耦形式的集成Q函数（解耦Iq函数）并与价值函数建立其鞅特性，该论文为均场博弈（MFG）和均场控制（MFC）问题提供了统一的策略评估准则。此外，根据解决MFG或MFC问题的任务，我们可以通过不同的方式使用解耦Iq函数学习均场平衡策略或均场最优策略。因此，该论文通过利用源自均场交互的所有测试策略，提出了适用于MFG和MFC问题的统一Q学习算法。通过具体的跳扩散设置示例，在LQ框架内外，我们可以获得解耦Iq函数和价值函数的确切参数化，并从代理人的视角展示了令人满意的算法性能。

Jul, 2024