BriefGPT.xyz
Ask
alpha
关键词
gradient fields
搜索结果 - 1
CDSA:一种面向离线强化学习的保守去噪评分算法
分布偏移是离线强化学习中的一个主要障碍,为了避免高估罕见或未见动作,需要将学得的策略与行为策略的差异最小化。与以往保守的离线强化学习算法相比,我们提出使用从预训练的离线强化学习算法生成的数据集密度的梯度场来调整原始动作,解耦了保守性约束和策
→
PDF
25 days ago
Prev
Next