Jun, 2024

发现最小的强化学习环境

TL;DR通过元学习神经网络马尔可夫决策过程,我们发现专门的训练环境对于训练强化学习智能体具有潜在的速度提升能力,并且发现上下文为基的赌博机能够实现良好的评估环境转移,从而加速下游应用。