BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-task td algorithm
搜索结果 - 1
基于 Transformer 的上下文强化学习中学习时间差分方法
此研究论文证明了 transformers 模型在前向传播中可以实现时间差异学习(TD learning)以及其他许多策略评估算法,通过使用多任务 TD 算法进行训练,并进行了理论分析。
PDF
a month ago
Prev
Next