BriefGPT.xyz
Ask
alpha
关键词
long-horizon elements
搜索结果 - 1
利用不变性学习基于动作的表示
使用动作双模拟编码,通过扩展单步可控性以递归的不变性约束,提出能捕捉长时序元素的多步可控性度量,通过在无奖励、均匀随机数据上进行预训练,提高了在多个环境中的样本效率,并展示了动作双模拟编码所捕捉到的信息。
PDF
3 months ago
Prev
Next