optimistic exploration | BriefGPT

关键词optimistic exploration

搜索结果 - 6

无模型的后验采样通过学习率随机化
介绍了一种名为随机化 Q 学习（RandQL）的新型基于后验抽样的模型无关算法，用于减小判断失误在分节马尔可夫决策过程（MDPs）中的影响，分析了它在标表和非标表度量空间设置下的性能，表明其乐观探索方法优于现有的方法。
PDF8 months ago
乐观陷阱：通过随机化风险准则的分布式强化学习
通过随机风险准则选择动作来避免一面倒的风险倾向的一种新型的分布式强化学习算法，证明了该方法的收敛性和最优性，并实证显示该方法在包括 Atari 55 游戏在内的各种环境下优于其他现有的基于分布的算法。
PDF8 months ago
离线训练用于在线 RL: 解耦策略学习以减轻探索偏见
在在线 RL 或微调中，使用乐观探索策略来探索新的状态和行为是可取的，我们提出了一种 Offline-to-Online-to-Offline (OOO) 框架，通过在在线微调结束时进行离线训练来恢复更好的策略。
PDF9 months ago
基于模型集合的效率高的强化学习算法：探索与利用
本文提出了模型集成的方法 MEEE，其中含有一些特殊的探索和利用策略，解决了现有方法中存在的问题，包括计划探索、评估学习模型的不确定性以及更加合理利用学习模型等。在多项持续控制基准测试中，该方法表现优于其他无模型和有模型的现有方法，尤其在样
PDF3 years ago
通过乐观策略搜索和规划实现高效的基于模型的强化学习
本文提出了一种基于模型的加强学习算法（H-UCRL），通过加强其输入空间并直接使用先验不确定性来提高探索，使得优化策略时也能区分先验不确定性和先验确定性。同时，本文针对 H-UCRL 分析了一般的后悔界，并构建了一个在高斯过程模型下证明的可
PDF4 years ago
垃圾进去，奖励出来：多臂赌博机中探索的自举方法
本文提出一种基于非参数 bootstrap 和伪奖励的乐观探索策略 Giro，通过对探索历史进行随机化以探索未知的领域，该方法不仅在 Bernoulli Bandit 问题上表现良好，在结构化问题上也可以得到广泛的应用。
PDF6 years ago