BriefGPT.xyz
Ask
alpha
关键词
max-return sequence modeling
搜索结果 - 1
ICML
离线强化学习的最大回报序列建模
该论文介绍了最大回报的序列建模概念,提出了 Reinforced Transformer(Reinformer)作为一个整合了最大化回报目标的序列模型。Reinformer 在训练阶段将最大化回报的目标纳入模型,并在推断时引导最优动作的选择
→
PDF
2 months ago
Prev
Next