BriefGPT.xyz
Ask
alpha
关键词
description length penalty
搜索结果 - 1
通过压缩学习选项
研究多任务强化学习中的统计规律对于新任务学习的加速是有效的,而技能学习是实现这一目标的一种方式,技能学习的热门方法是使用潜在变量模型来最大化预收集的经验的可能性,结合应用于描述技能的描述长度惩罚的新目标可以使技能更好地从经验中提取共同结构,
→
PDF
2 years ago
Prev
Next