BriefGPT.xyz
Ask
alpha
关键词
transformer-based policies
搜索结果 - 2
ICML
后见之链中崛起的代理变形机
本文利用 “chain of hindsight” 方法在强化学习中训练了一个能够直接综合多个轨迹信息的 transformer 模型,并通过在 D4RL 和 ExoRL 基准测试中的表现证明了它的竞争力和可伸缩性。
PDF
a year ago
融合决策 Transformer: 权重平均以形成多任务策略
本篇论文探讨了通过合并不同 MuJoCo 运动问题的决策 Transformer 子集,形成多任务模型(无集中式训练),从而更加灵活地创造通用策略的初步方法,同时提出了合并政策的更优结果可能性,并建议使用共同的预先训练初始化,以及在问题特定
→
PDF
a year ago
Prev
Next