Apr, 2024

连续时间风险敏感强化学习的二次变差惩罚

TL;DR该研究论文探讨了基于熵正则化的探索性扩散过程形式下的连续时间风险敏感强化学习,包括风险敏感目标函数、马丁格尔观点和二次变化。通过这个特征描述,我们可以通过增加价值过程的实现方差来将非风险敏感RL算法应用于风险敏感场景,并证明了该算法在Merton投资问题中的收敛性,以及温度参数对学习过程行为的影响。此外,通过模拟实验,展示了风险敏感RL在线性二次控制问题中的有限样本性能改善。