Jun, 2023

正则化鲁棒MDPs和风险敏感MDPs:等价性,策略梯度和采样复杂度

TL;DR论文探讨了基于强化学习的鲁棒性Markov决策问题,提出了风险敏感MDP和正则化鲁棒MDP之间的等价关系,并且导出用于正则化鲁棒MDP问题的策略梯度定理,提出了基于样本的离线学习算法RFZI来解决正则化鲁棒MDP问题,并分析了算法的样本复杂度。