BriefGPT.xyz
Ask
alpha
关键词
atari 100k benchmark
搜索结果 - 3
使用并行观测预测改进基于标记的世界模型
基于语言符号序列的变换器,提出了基于令牌的世界模型(TBWM)。通过引入并行观察预测机制(POP)解决了生成观察的瓶颈问题。将 POP 应用于 TBWM 代理 REM(保持环境模型),在不到 12 小时的训练时间内,在 Atari 100K
→
PDF
5 months ago
ICML
更大、更好、更快:具备人类效率的人类水平 Atari
我们介绍了一个名为 BBF 的价值型强化学习智能体,在 Atari 100K 基准测试中实现了超人类的表现。BBF 依赖于缩放用于价值估计的神经网络,以及其他一些设计选择,以在样本有效的方式下实现此缩放。我们对这些设计选择进行了详细的分析,
→
PDF
a year ago
统计临界点边缘深度强化学习
本文通过案例研究 Atari 100k 游戏数据集,强调在少量训练运行的深度强化学习算法中,为保证结果准确性和防止领域进展停滞,不可忽略数据的不确定性,提出用区间估计来评估强化学习算法的表现,并在常用数据集上分析了已有算法的性能,提出更为严
→
PDF
3 years ago
Prev
Next