BriefGPT.xyz
大模型
Ask
alpha
关键词
intrinsic bonus
搜索结果 - 2
使用值条件状态熵探索加速强化学习
本文提出了一种基于价值条件下的状态熵探索技术,该技术通过最大化条件价值估计的状态熵的平均值,分别估计每个状态的状态熵,再通过只考虑状态价值估计相似的访问状态来计算内在奖励,从而避免了低价值状态分布影响高价值状态周围的探索,加速了多种 RL
→
PDF
a year ago
ICML
利用视频进行无动作预训练的强化学习
本文介绍了一种通过生成式预训练学习得到的视觉表示,用于有效地加速并提高多种任务下视觉增强学习系统性能和效率的框架。我们在视频数据上预训练了一个无动作潜在视频预测模型,并将这些表示用于未知环境下的学习操作条件下的世界模型。我们还引入了一个新的
→
PDF
2 years ago
Prev
Next