Jan, 2023

适应开放世界新奇性的神经符号世界模型

TL;DR本文研究了如何提高强化学习算法的适应性,通过引入一种名为 WorldCloner 的训练神经符号世界模型,从而实现快速的新颖性适应,并使用想象力来辅助适应后的策略,达到更高的效率。