BriefGPT.xyz
Ask
alpha
关键词
tsallis entropy maximization
搜索结果 - 1
Tsallis 强化学习:最大熵强化学习的统一框架
本文提出了一种新的马尔可夫决策过程类别 Tsallis MDPs,用于强化学习问题和各种类型熵的使用,包括标准 Shannon-Gibbs 熵,并使用一个额外的实数值参数,称为熵指数,控制了勘探倾向和优化政策的不同维度,所提出方法采用 Ts
→
PDF
5 years ago
Prev
Next