BriefGPT.xyz
Ask
alpha
关键词
q-transformer
搜索结果 - 1
Q-Transformer: 基于自回归 Q 函数的可扩展离线强化学习
本文介绍了一种用于训练多任务策略的可扩展强化学习方法,该方法可以利用人类示范和自主收集的数据。通过使用 Transformer 作为 Q 函数的可扩展表示方法,并应用于离线时间差分备份的训练中,我们称之为 Q-Transformer。通过将
→
PDF
10 months ago
Prev
Next