BriefGPT.xyz
Ask
alpha
关键词
reward-function
搜索结果 - 1
AAAI
OptionGAN: 使用生成对抗逆强化学习学习联合奖励策略选项
本文介绍了一种以对手生成网络为基础的新方法,以同时恢复反演强化学习中的奖励和策略选项,用于解决从专家演示中学习复杂任务的奖励函数。该方法在简单和复杂的连续控制任务中表现良好,展示了一次转移学习中的显著性能提高。
PDF
7 years ago
Prev
Next