关键词off-policy temporal-difference learning
搜索结果 - 2
  • 关于某些基于梯度的时间差分离线学习算法的收敛性
    PDF7 years ago
  • 关于广义贝尔曼方程和时间差分学习
    PDF7 years ago
Prev
Next