BriefGPT.xyz
Ask
alpha
关键词
trajectory stitching
搜索结果 - 2
ICML
离线强化学习的最大回报序列建模
该论文介绍了最大回报的序列建模概念,提出了 Reinforced Transformer(Reinformer)作为一个整合了最大化回报目标的序列模型。Reinformer 在训练阶段将最大化回报的目标纳入模型,并在推断时引导最优动作的选择
→
PDF
2 months ago
弹性决策变换器
本研究介绍了一种新的弹性决策变换器(EDT)方法,可以在测试时通过调整在 DT 中保留的历史长度来促进轨迹拼接,实现优化轨迹和跨越 DT 和 Q 学习方法之间的性能差距,表现出优越性能。
PDF
a year ago
Prev
Next