Sep, 2023

保守世界模型

TL;DR通览全文后,我们发现:利用前后表示法(FB)及保守策略,即使在小数据集上训练,零样本强化学习在各个数据集、领域和任务中可以比纯 FB 性能高达 150%,且保守策略算法表现不亚于任务特定算法。