BriefGPT.xyz
Ask
alpha
关键词
causal entropy regularization
搜索结果 - 1
用因果稀疏 Tsallis 熵正则化的稀疏马尔可夫决策过程用于强化学习
本文提出了一种带有因果稀疏 Tsallis 熵正则化的稀疏 Markov 决策过程,引入的策略正则化引导了 Markov 决策过程中的稀疏和多模态最优策略分布,并与利用因果熵正则化的软 Markov 决策过程进行了比较,在强化学习问题中应用
→
PDF
7 years ago
Prev
Next