BriefGPT.xyz
Ask
alpha
关键词
continual rl
搜索结果 - 3
增强连续强化学习中的世界模型回放
通过引入一种扩充缓冲区的方法来缓解记忆约束,将其与基于模型的强化学习算法结合使用,从而在持续学习中提高效果。我们在 Procgen 和 Atari RL 基准测试中评估了这种方法的有效性,并证明了在潜在世界模型的背景下,用于回放缓冲区的分布
→
PDF
5 months ago
ICLR
利用离散表示进行连续强化学习
通过对离散表示法进行彻底的实证研究,我们发现,与传统连续表示法相比,在世界模型学习、无模型强化学习和连续强化学习问题中,将观测数据表示为分类值向量能更准确地模拟世界,并且使用离散表示法训练的智能体能够更好地学习策略和使用更少的数据,在连续强
→
PDF
7 months ago
情节性强化学习的稳态分析
本文证明了每个有限时间决策任务的情节学习环境在任何行为策略下都有一个独特的稳态,并且代理输入的边缘分布在几乎所有情节学习过程中确实会收敛到稳态分布。此观察支持一种反转常规智慧的思维方式。基于这个观察,本文围绕着几个重要的概念统一了情节式和持
→
PDF
4 years ago
Prev
Next