BriefGPT.xyz
Ask
alpha
关键词
bayesian rl
搜索结果 - 3
BADDr: 基于贝叶斯适应性的深度 Dropout RL 用于 POMDPs
本文提出了一种表示无关的、针对部分可观测情况下的贝叶斯强化学习的理论框架,并提出了一种基于 dropout 网络的新方法 BADDr,旨在解决 BRL 方法在拓展性上存在的瓶颈,并证实其在处理规模较大的情况时的有效性。
PDF
2 years ago
离线元学习探索
通过离线数据,基于贝叶斯强化学习视角提出 Offline Meta Reinforcement Learning 问题,研究如何设计元智能体以快速最大化相同任务分布下不同任务中的奖励收益,探究探索策略、MDP 歧义以及稀疏奖励任务等相关问题
→
PDF
4 years ago
基于方差的奖励函数用于近似贝叶斯强化学习
提出了一种基于后验概率分布的奖励加成方法,用于在 Bayesian RL 中解决探索与利用之间的困境,实现高效且有效的探索,能够利用结构化的先验知识,并证明其具有多项式样本复杂度。
PDF
12 years ago
Prev
Next