关键词off-policy data
搜索结果 - 9
  • 目标网络和过参数化稳定函数逼近下的离线策略引导
    PDFa month ago
  • 高速公路增强学习
    PDFa month ago
  • ICLR技能还是运气?通过优势函数进行回报分解
    PDF5 months ago
  • 蒸馏策略优化
    PDFa year ago
  • 通过无关行为的发散正则化来实现稳定的政策优化
    PDF4 years ago
  • 统计高效的离线策略梯度
    PDF4 years ago
  • 优势加权回归:简单且可扩展的离线策略强化学习
    PDF5 years ago
  • 对话中隐含人类偏好的大规模脱靶批次深度强化学习
    PDF5 years ago
  • ICML基于轨迹的离线深度强化学习
    PDF5 years ago
Prev
Next