BriefGPT.xyz
Ask
alpha
关键词
maxent rl
搜索结果 - 3
多路径环境中的离散概率推断作为控制
通过在整个马尔可夫决策过程中近似强制执行流的守恒,我们扩展了最近的方法来纠正奖励,以确保最优最大熵强化学习策略引发的边缘分布与原始奖励成比例。
PDF
5 months ago
实践中是否需要熵奖励?
本文研究熵作为内在奖励的效果,并在一种普遍的 MaxEnt RL 方法 —— 软性演员 - 评论家(SAC)中进行各种消融研究。我们发现熵奖励应谨慎用于策略评估,并且仅使用熵正则化来进行策略改进可获得可比甚至更好的性能和鲁棒性。因此,我们建
→
PDF
2 years ago
如果最大熵强化学习是答案,那么问题是什么?
本文阐述了最大熵强化学习方法在解决某些具有奖励函数变异的控制问题中的优化作用,该方法还可以解决部分可观察马尔可夫决策过程且与双方博弈等效,其可以提供一定的洞见,指出在任务目标具有不确定性的领域中最大熵强化学习方法特别适用。
PDF
5 years ago
Prev
Next