BriefGPT.xyz
Ask
alpha
关键词
reward-free
搜索结果 - 1
AAAI
通过最大化 Rényi 熵进行无奖励强化学习框架探索
通过最大化 Renyi 熵的方法,提出了一种适用于元 RL 的无奖励强化学习框架,该框架有效地解决了探索和利用分离的问题,并设计了相应的强化学习算法 (batch RL algorithm) 以便在规划阶段中能更好地处理任意奖励函数。
PDF
4 years ago
Prev
Next