关键词policy space
搜索结果 - 10
  • 连续控制中的政策优化问题:噪声邻域下的回报景观
    PDF9 months ago
  • 用简单的进化思想辅助基于梯度的强化学习
    PDFa year ago
  • 通过排除实现多样性 (DTE): 基于价值分解的强化学习领域识别
    PDFa year ago
  • 方差降低的保守策略迭代
    PDF2 years ago
  • 使用层次奖励函数指定行为偏好
    PDF2 years ago
  • 流量控制:无损原始发现的离线强化学习
    PDF2 years ago
  • 利用高斯过程模拟人类驾驶员的操作行为
    PDF3 years ago
  • KDD随机控制的主动推断
    PDF3 years ago
  • 上界逆事实置信区间:一种新的胜算原理用于上下文多臂赌博机
    PDF4 years ago
  • KDD带有不足支持的离线策略赌博机
    PDF4 years ago
Prev
Next