BriefGPT.xyz
Ask
alpha
关键词
entropy assumption
搜索结果 - 1
无监督强化学习的混合惊喜
提出了一种名为 MOSS 的策略学习方法,通过训练一个同时最大化和最小化惊喜的混合组件来解决先前基于最大惊喜或最小惊喜的方法在真实世界环境中遇到的对环境动态熵的假设问题。实验结果表明,该方法在无监督强化学习领域达到了最新的最优表现。
PDF
2 years ago
Prev
Next