Mar, 2024

面向高效风险敏感策略梯度:迭代复杂性分析

TL;DR我们对风险敏感策略梯度方法进行了详尽的迭代复杂度分析,得到了达到ε-近似一阶稳定点(FOSP)所需的迭代复杂度为O(ε^{-2})。我们研究了风险敏感算法是否可以达到更好的迭代复杂度;理论分析表明,风险敏感的REINFORCE算法可以减少迭代次数以实现收敛,而使用指数效用函数则不需要额外的每次迭代计算。我们还表征了风险敏感算法能够实现更好迭代复杂度的条件。同时,我们的模拟结果验证了在大约半数的回合后,风险回避情况下的算法与风险中性情况下的算法相比能够更快地收敛和稳定。