Jul, 2024

基于Tsallis熵的连续时间q-Learning跳扩散模型

TL;DR本文探讨了基于Tsallis熵正规化的连续时间强化学习与控制化跳扩散模型,包括q函数(Q函数的连续时间对应)和q学习算法。我们建立了q函数在Tsallis熵下的鞅特征,并根据拉格朗日乘子是否可以明确推导,设计了两种不同的q学习算法。最后,我们应用这些算法解决了优化投资组合清算问题和非线性控制问题,并验证了优化策略的出色表现。