BriefGPT.xyz
Ask
alpha
关键词
polylog(t) regret
搜索结果 - 1
双重利润策略优化
本文针对 tabular Markov 决策过程中的策略优化方法,通过设计适当的正则化器、探索奖励和学习率,在损失为随机时实现更优的 Polylog (T) 的损失,而在对抗的情况下不降低最坏情况下的保障,并且使用 Tsallis Entr
→
PDF
a year ago
Prev
Next