BriefGPT.xyz
Ask
alpha
关键词
q-networks
搜索结果 - 3
基于集成的离线到在线强化学习:从悲观学习到乐观探索
提出了一种名为 “Ensemble-based Offline-to-Online(E2O)RL” 的新框架,通过增加 Q 网络的数量,能够无损地桥接离线预训练和在线微调,同时通过松弛 Q 值估计的悲观主义和合理利用集合探索机制,加快了在线
→
PDF
a year ago
基于深度强化学习从文本中提取动作序列
本文运用基于深度强化学习的 Q-networks 模型,以自然语言文本为基础,从中无限制提取行动序列,通过在线实验与现有技术进行比较,证明了本方法的有效性。
PDF
6 years ago
通过贝叶斯深度 Q 网络实现高效探索
这篇论文研究了高维情境下的强化学习,提出了两种基于乐观法和后验采样的算法来解决此问题,并扩展了该方法应用在深度强化学习上,所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式,使其能够充分平衡探索与
→
PDF
6 years ago
Prev
Next