Dec, 2023

应对新的顺序决策任务的泛化学习

TL;DR使用离线数据集,通过训练大型多样化模型,能够在只有少量示范数据的情况下,使自主代理器在新的任务上进行上下文学习。