BriefGPT.xyz
Ask
alpha
关键词
latent-action policies
搜索结果 - 1
ICLR
学习无行动行动
通过从无动作演示中推断潜在动作,我们介绍了一种名为 LAPO 的方法,它可以有效地预训练深度强化学习模型,并且可以快速微调以实现专家级表现。这为在网上大量的无动作演示中预训练强大而通用的强化学习模型提供了重要基础。
PDF
7 months ago
Prev
Next