BriefGPT.xyz
Ask
alpha
关键词
policy approximations
搜索结果 - 1
IJCAI
通过熵正则化的策略逼近学习零和随机博弈中的纳什均衡
通过使用策略近似来减少学习零和随机博弈的纳什均衡的计算成本,我们提出了一种新的 Q-learning 类型算法,该算法使用一系列经过熵正则化的软策略来近似 Q 函数更新期间的纳什策略。我们证明, 在某些条件下,通过更新正则化的 Q 函数,该
→
PDF
4 years ago
Prev
Next