关键词off-policy rl algorithm
搜索结果 - 3
  • 通过持续行动的可变时间离散化的演员 - 评论家方法
    PDFa year ago
  • 通用强化模仿及其在基于视觉的自动驾驶中的应用
    PDF3 years ago
  • 使深度 Q 学习方法对时间离散化具有鲁棒性
    PDF5 years ago
Prev
Next