关键词expert policy
搜索结果 - 3
  • 基于贝叶斯赌博机的策略不变显式塑形方法,用于融合外部建议的强化学习
    PDFa year ago
  • 逆强化学习的主动探索
    PDF2 years ago
  • 走向模仿学习的基本极限
    PDF4 years ago
Prev
Next