BriefGPT.xyz
Ask
alpha
关键词
entropy-minimizing
搜索结果 - 1
自适应惊喜内在动机的无监督强化学习
提出了一个基于多臂赌博机问题的代理模型,该模型根据环境的熵条件动态调整目标,从而鼓励在不同熵环境中出现新的行为和学习技能。
PDF
a month ago
Prev
Next