关键词human teachers
搜索结果 - 2
  • 从多元人类反馈中学习奖励函数:最优化整合演示和偏好
    PDF4 years ago
  • 使用动作建议优化 Minecraft 中的深度强化学习
    PDF5 years ago
Prev
Next