关键词optimism in the face of uncertainty
搜索结果 - 8
- NeoRL:非情节强化学习的高效探索
我们研究了非时序强化学习(RL)的问题,其中系统动态未知,并且 RL 代理需要从单个轨迹中学习,即没有重置。我们提出了 Nonepisodic Optimistic RL(NeoRL),这是一种基于乐观原则面对未知动态的方法。NeoRL 使 - 共享仿射子空间中的元学习在赌博机中的应用
通过在线主成分分析学习低维仿射子空间,从而降低遇到的赌博机的预期遗憾,我们研究了通过充分利用其集中性解决多个情境随机赌博任务的元学习问题。我们提出并理论地分析了两种解决方法:一种是基于在不确定性面前的乐观原则,另一种是通过汤普森抽样。我们的 - AAAIOVD-Explorer:噪声环境中的探索不应仅仅是乐观的追求
在探索嘈杂环境中,乐观导向探索为基础,对高噪声区域的过度探测进行了缓解,提出了一种噪声感知的乐观探索方法-OVD-Explorer,通过梯度上升推动探索,在连续控制强化学习任务中取得了优越的结果。
- 少探索即可
基于多臂赌博问题,通过引入调整的奖励项,考虑任务的难度,该研究提出的 UCB^τ 算法在全面的后悔和风险分析中被验证出具有理论上的强大性能,通过与标准 UCB 算法和 Thompson Sampling 算法在合成数据集上的比较评估,UCB - 利用鞍点边界来改进随机线性赌臂算法的新算法
我们提出了一种改进的算法,可保证在最坏情况下减少后悔,以解决随机线性强盗问题。
- 保守乐观:快速学习 CVaR 策略
以 Markov 决策过程为基础,采用面对不确定性的乐观主义原则,使用一种乐观主义的分布 Bellman 算子,将回报分布的概率质量从下尾部移动到上尾部,从而快速学习具有良好 CVaR 的策略。该算法可以在多种模拟环境中更快地找到 CVaR - 通过评估最优偏置函数实现强化学习的遗憾最小化
基于 “面对不确定性的乐观原则” 的算法,使用有限状态 - 动作空间的、用马尔可夫决策过程(MDP)建模的强化学习(RL)有效学习。通过评估最佳偏置函数 $h^{*}$ 的状态对差异,该算法在已知 $sp (h^{*})$ 的情况下实现 M - 度量空间中的高效无模型强化学习
本文介绍了一种基于 Q-learning 的高效的无模型强化学习算法,利用一种自然的状态 - 动作空间度量扩展了先前仅针对离散状态 - 动作空间的 Q-learning 算法,无需使用黑盒规划预言机。