BriefGPT.xyz
Ask
alpha
关键词
multi-task policies
搜索结果 - 2
Q-Transformer: 基于自回归 Q 函数的可扩展离线强化学习
本文介绍了一种用于训练多任务策略的可扩展强化学习方法,该方法可以利用人类示范和自主收集的数据。通过使用 Transformer 作为 Q 函数的可扩展表示方法,并应用于离线时间差分备份的训练中,我们称之为 Q-Transformer。通过将
→
PDF
10 months ago
ICLR
用于离线反事实信息匹配的通用决策 Transformer
提出了广义决策转换器(GDT)以解决 HIM 问题,该方法能够从轨迹数据中提取多任务策略。 GDT 不仅恢复了决策转换器(DT)作为特殊情况,还引入了新的分类 DT(CDT)和双向 DT(BDT)以匹配未来的不同统计信息,并在 MuJoCo
→
PDF
3 years ago
Prev
Next