Oct, 2020

近乎最小最大化优化强化学习在折扣 MDPs 上

TL;DR通过乐观不确定性原则和伯恩斯坦型奖励设计的算法 UCBVI-γ,最小化为折扣 MDPs 所得出的代价,其误差上界是 sqrt (SAT)/(1−γ)^(3/2),与 minimax 下界的误差相等。