BriefGPT.xyz
Ask
alpha
关键词
offline drl
搜索结果 - 1
使用合成数据进行预训练有助于离线强化学习
最近的研究表明,对于离线深度强化学习,通过在大型语言语料库中对决策 Transformer 进行预训练可以提高下游性能。本文首先证明了语言对于提升性能并非必要,事实上,通过对一小部分迭代进行合成 IID 数据的预训练即可与大型语言语料库的预
→
PDF
9 months ago
Prev
Next