BriefGPT.xyz
Ask
alpha
关键词
batch-constrained q-learning
搜索结果 - 1
基于批次的深度强化学习算法基准测试
本研究在 Atari 领域中利用单个部分训练的行为策略生成的数据对最近的离线策略和批量强化学习算法的性能进行了基准测试,并发现在这些条件下,许多算法表现不佳,而 Batch-Constrained Q-learning 算法适应离散动作环境
→
PDF
5 years ago
Prev
Next