BriefGPT.xyz
Ask
alpha
关键词
state-action value function
搜索结果 - 3
IJCAI
使用残差生成建模提升离线强化学习
本文主要研究离线强化学习中的生成建模和状态 - 动作值函数学习,并提出了一种新的针对离线强化学习中策略近似误差的残差生成模型 AQL。实验证明,AQL 可以在不同质量测试数据集中学习到更准确的政策近似。另外,该离线 RL 方法在多人在线战场
→
PDF
3 years ago
ICML
使用核贝尔曼统计量进行负责任离线策略评估
本文提出一个新的变分框架,将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题,通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明,我们的方法在不同环境下都能产生紧密的置信区间。
PDF
4 years ago
ICLR
利用结构实现基于价值的规划和强化学习
利用矩阵估计技术,提出了一种利用 Q 函数中的全局低秩结构来提高经典控制器和深度强化学习性能的方案。在控制任务和 Atari 游戏中进行的实验证实了该方法的有效性。
PDF
5 years ago
Prev
Next