May, 2024

离线到在线强化学习中的任务泛化集成后继代表

TL;DR使用离线数据集构建继任者表示法和集成 Q 函数的方法,以实现从离线到在线学习的任务泛化和快速适应新任务。