BriefGPT.xyz
Ask
alpha
关键词
exploration bonus
搜索结果 - 6
少探索即可
基于多臂赌博问题,通过引入调整的奖励项,考虑任务的难度,该研究提出的 UCB^τ 算法在全面的后悔和风险分析中被验证出具有理论上的强大性能,通过与标准 UCB 算法和 Thompson Sampling 算法在合成数据集上的比较评估,UCB
→
PDF
8 months ago
机器人操作的物体中心世界模型
FOCUS 是一个基于模型的代理人,通过一种新颖的探索奖励机制可以在机器人操纵任务中更轻松地探索物体交互,在不同环境中的操作任务中表现出更高的效率,同时可以应用于现实世界任务中,这将有助于提高机器人的操作能力。
PDF
a year ago
从最优性到鲁棒性:基于狄利克雷采样策略的随机赌博机算法
本文研究通过基于经验指数的成对比较和数据相关探索奖励的重新采样来计算理论上不完整的手臂分布的 Dirichlet Sampling 算法,表明这些策略的不同变体在手臂分布有界时实现了可证明的最优遗憾保证,并且在半边界分布具有轻微的分位条件时
→
PDF
3 years ago
基于分布式强化学习的高效探索技术
本论文提出的一种深度深度强化学习探索方法具有两个组成部分:有一个递减的时间表来抑制内在不确定性,一个探索奖励是从所学分布的上分位数中计算出来的,实验结果表明,我们的算法在 14 个 Atari 2600 游戏中有 12 个游戏取得了比 QR
→
PDF
5 years ago
永不忘记:通过学习光流实现探索和开发的平衡
本研究提出了利用光流估计来评估新观测的新颖性,以解决深度强化学习中高维观测任务下探索和开发之间平衡的问题。实验结果表明,该方法相对于以前的方法具有更优异和持久的性能。
PDF
5 years ago
随机网络提炼的探索
通过引入基于神经网络的探索奖励机制并将内在和外在奖励进行灵活结合,该研究在探索性 Atari 游戏中显著提高了性能,特别是在 Montezuma 的复仇游戏中实现了优于平均人类水平的表现,并有时完成第一级别。
PDF
6 years ago
Prev
Next