Feb, 2023

双重利润策略优化

TL;DR本文针对 tabular Markov 决策过程中的策略优化方法,通过设计适当的正则化器、探索奖励和学习率,在损失为随机时实现更优的 Polylog (T) 的损失,而在对抗的情况下不降低最坏情况下的保障,并且使用 Tsallis Entropy 和 Shannon Entropy regularizer 实现了这一目标。同时,我们展示了在已知的转移条件下,通过利用对数障碍正则化器,在对抗情况下可以获得一阶损失保证。