关键词reward specification
搜索结果 - 4
  • RoboCLIP:一个演示足够学会机器人策略
    PDF9 months ago
  • 目标的脚印:从人 - 环交互反馈中获得目标条件的探索
    PDFa year ago
  • 库存管理的协作多智能体强化学习
    PDFa year ago
  • 基于遗憾的马尔可夫决策过程奖励引导方法
    PDF12 years ago
Prev
Next