关键词off-policy learning
搜索结果 - 42
  • 离线策略学习中对规范化重要性采样的悲观性统一 PAC-Bayesian 研究
    PDFa month ago
  • 数据高效的通用值函数评估的自适应探索
    PDF2 months ago
  • 线性函数逼近的离策多步 TD 学习分析
    PDF4 months ago
  • POTEC:基于两阶段策略分解的大动作空间离线学习
    PDF5 months ago
  • AMAGO:面向自适应代理的可扩展上下文强化学习
    PDF9 months ago
  • 内容市场中的离策略学习广告负载平衡
    PDF9 months ago
  • 直接梯度时差学习
    PDFa year ago
  • 一种仅使用一个步长的新渐变 TD 算法:使用 $L$-$λ$ 平滑性进行收敛速率分析
    PDFa year ago
  • ICML并行 Q 学习:在大规模并行仿真下扩展离策略强化学习
    PDFa year ago
  • 可靠的剂量组合离策略学习
    PDFa year ago
  • DoMo-AC: 双重多步骤离线 Actor-Critic 算法
    PDFa year ago
  • ICML离线学习的指数平滑
    PDFa year ago
  • 利用对称性和启发式演示的离线策略强化学习在机器人操纵中的应用
    PDFa year ago
  • 不确定性感知的离线学习
    PDFa year ago
  • 反步时间差分学习
    PDFa year ago
  • 无需重要性采样的 Actor-Critic 方法的离线校正
    PDF2 years ago
  • 学习排序的悲观离线策略优化
    PDF2 years ago
  • AAAI面向运行时不确定性的鲁棒离线学习
    PDF2 years ago
  • 链式价值函数用于离策略学习
    PDF2 years ago
  • ICMLPEBBLE: 通过重标记经验和无监督预先训练实现高效互动式强化学习
    PDF3 years ago
Prev