BriefGPT.xyz
大模型
Ask
alpha
关键词
atari domain
搜索结果 - 5
ICML
深度强化学习的谱规范化:优化视角
通过对价值函数估计器进行规范化,约束单层的 Lipschitz 常数,使用谱归一化可以使 Categorical-DQN 代理的性能达到更详细的 Rainbow 代理,在具有挑战性的 Atari 领域,这些发现表明,需要关注神经部件及其学习
→
PDF
3 years ago
基于批次的深度强化学习算法基准测试
本研究在 Atari 领域中利用单个部分训练的行为策略生成的数据对最近的离线策略和批量强化学习算法的性能进行了基准测试,并发现在这些条件下,许多算法表现不佳,而 Batch-Constrained Q-learning 算法适应离散动作环境
→
PDF
5 years ago
深度强化学习的高效并行方法
提出一种高效并行化深度强化学习算法的框架,可以在单台计算机上实现多个参与者的学习。该框架可以应用于各种算法,包括值函数和策略梯度算法,并且可以在 GPU 上高效实现。通过在 GPU 上实现了优势优化器演员 - 评论员算法,使用同步更新和在策
→
PDF
7 years ago
ICLR
经验重放的高样本效率演员 - 评论家算法
本文介绍了一个具有经验重放的 Actor-critic 深度强化学习算法,通过引入截断重要性采样、随机 Dueling 网络结构以及一种新的信任区域策略优化方法,稳定、高效地在包括离散的 57 种 Atari 游戏环境和多种连续控制问题中表
→
PDF
8 years ago
ICLR
策略蒸馏
本文介绍了一种称为 Policy Distillation 的新方法,它可以从强化学习代理中提取策略并训练出一个性能表现优异的、更小而且更高效的网络。同时,这种方法还可以将多个任务特定策略合并为一个策略并应用到 Atari 游戏中,在实验中
→
PDF
9 years ago
Prev
Next