Aug, 2023

通过未见过的状态增强在离线强化学习中利用泛化能力

TL;DR离线强化学习方法在探索和利用之间通过保守的值估计寻求平衡,该研究针对这一问题提出了一种基于模型的方法来增强对未知状态的利用性,并通过值观察下的扰动来找到未知状态,取得了改进的性能。