BriefGPT.xyz
Ask
alpha
关键词
atari benchmark
搜索结果 - 5
深度强化学习中的优化器重置:实证研究
本研究旨在研究在深度强化学习中近似于最优值函数的问题。通过重置优化器的内部参数,可以提高模型在 Atari 测试中的表现。
PDF
a year ago
深度强化学习的后验抽样
本文介绍了一种名为 PSDRL 的算法,它是第一个真正可扩展的近似后验采样强化学习算法,它结合了基于值函数近似的连续计划算法和对潜在状态空间模型的高效不确定性量化,经过在 Atari 基准测试上进行广泛实验,PSDRL 在样本效率和计算效率
→
PDF
a year ago
MM
强化学习中神经巩固的迁移学习
本文探索了使用网络蒸馏作为特征提取方法的转移学习,发现蒸馏不妨碍知识转移,包括从多个任务到一个新任务的转移,结果比没有使用蒸馏更优。
PDF
2 years ago
NIPS
基于模型的正则化方法和转码网络的深度强化学习
本文提出了一种基于价值的深度强化学习的新的优化目标,通过增加模型学习组件来扩展传统的 DQN,以产生一个转码器网络,学习环境模型和强化学习问题共享结构,该模型的预测误差被包含在基本 DQN 损失中作为额外的正则化项,改进了采样效率和性能。在
→
PDF
6 years ago
策略梯度与软 Q 学习的等价性
研究表明,$Q$-learning 方法在最初的样本效率和有效性方面能够有效地实现,但其估计的 $Q$-value 非常不准确,本文给出了一个部分解释,即 $Q$-learning 方法在秘密地实现 policy gradient 更新。
PDF
7 years ago
Prev
Next