BriefGPT.xyz
Ask
alpha
关键词
state visitation
搜索结果 - 1
使用前驱和后继表示的最大状态熵探索
研究了一种基于过去经验的探索学习方法,通过最大化单个轨迹的状态访问分布的熵来学习探索策略,并证明了此方法在有限样本下最大化状态覆盖的有效性。
PDF
a year ago
Prev
Next