Feb, 2024

多路径环境中的离散概率推断作为控制

TL;DR通过在整个马尔可夫决策过程中近似强制执行流的守恒,我们扩展了最近的方法来纠正奖励,以确保最优最大熵强化学习策略引发的边缘分布与原始奖励成比例。