BriefGPT.xyz
大模型
Ask
alpha
关键词
specialized training environments
搜索结果 - 1
发现最小的强化学习环境
通过元学习神经网络马尔可夫决策过程,我们发现专门的训练环境对于训练强化学习智能体具有潜在的速度提升能力,并且发现上下文为基的赌博机能够实现良好的评估环境转移,从而加速下游应用。
PDF
16 days ago
Prev
Next