BriefGPT.xyz
Ask
alpha
关键词
exploration policies
搜索结果 - 5
在少数无奖励部署中学习通用世界模型
在深度强化学习中,为了建立通用型智能体,需要实现两个关键的条件:探索是任务无关的,探索策略能够在无需重新训练的情况下收集大量数据。本文提出了一种新的强化学习范式 —— 无奖励部署效率设置,并在此基础上介绍了 CASCADE 算法,通过一种信
→
PDF
2 years ago
ICML
函数逼近的 Epsilon-Greedy 强化学习保证
本文针对 RL 领域中近视探索政策(如 epsilon-greedy、softmax 或 Gaussian noise)在实际应用中表现出全部、部分失败的情况,提出了一种称为 “myopic exploration gap” 的新复杂度度量
→
PDF
2 years ago
ICLR
永不放弃:学习有向探索策略
本篇论文提出了一种基于强化学习和 UVFA 框架的方法,通过学习一系列定向的探索策略来解决难以探索的游戏,并使用轨迹存储和 kNN 算法来构造一种内在奖励信号,以影响策略的学习方式,并在 Atari-57 游戏套件中得到了很好的表现结果。
PDF
4 years ago
通过分布偏移误差检查预示着的函数逼近 $Q$ 学习的可证明高效性
本文介绍了一种可证明有效的基于线性函数逼近的 $Q$-learning 算法,提出了 DSEC oracle 概念,该算法使用多项式数量的轨迹返回近似最优策略,并可用于设计和分析具有一般函数逼近的强化学习算法。
PDF
5 years ago
ICML
通过潜在状态解码的丰富观测下可证明的高效强化学习
该论文研究了在具有大量从少量潜在状态生成的丰富观察结果的情节 MDPs 中的探索问题。在某些可辨识性假设下,研究人员通过一系列回归和聚类步骤归纳地估计了从观察到潜在状态的映射,并使用它构建了良好的探索策略。
PDF
5 years ago
Prev
Next