BriefGPT.xyz
大模型
Ask
alpha
关键词
state reconstruction feature learning
搜索结果 - 1
离线强化学习中的超出分布泛化扩散策略
利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比,离线强化学习可以使用非专家数据和多模态行为策略。然而,离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战,因为训练过程中缺乏在线交互。既往研究在
→
PDF
a year ago
Prev
Next