BriefGPT.xyz
Ask
alpha
关键词
model-based rl algorithms
搜索结果 - 3
DiffTOP: 深度强化学习和模仿学习中的可微轨迹优化
DiffTOP 利用可微分轨迹优化作为策略表示,通过学习轨迹优化的参数,解决了模型不匹配问题,并在深度增强学习和模仿学习任务中优于当前最先进的方法。
PDF
5 months ago
在真实环境中微调离线世界模型
通过使用离线数据集在真实机器人上对世界模型进行预训练,然后通过使用学习模型进行在线数据集的规划和微调,本文试图解决强化学习在真实机器人上训练时的数据效率问题,以及模型在训练和推理过程中的分布偏移问题,该方法在模拟环境和真实机器人上的视觉 -
→
PDF
8 months ago
如此可能而不可能:反事实指导的策略搜索
利用结构因果模型对离线策略学习算法进行对实验数据的反事实评估,并通过模型预测提高模型预测的偏差。
PDF
6 years ago
Prev
Next