BriefGPT.xyz
Ask
alpha
关键词
controller miscalibration
搜索结果 - 1
残差策略学习
本文介绍了一种简单的方法 —— 残差策略学习(Residual Policy Learning,RPL),用于改善使用模型自由深度强化学习来提高非可微策略。我们在面对复杂的机器人操作任务时,研究了 RPL 的应用,这些任务中存在良好但不完美
→
PDF
6 years ago
Prev
Next