Nov, 2024

离线强化学习的双重温和推广

TL;DR本文解决了离线强化学习中的外推误差和价值高估问题,提出了双重温和推广(DMG)的方法,该方法有效利用了一定条件下的温和推广来提升性能。DMG通过温和的动作推广和温和的推广传播,理论上保证在理想情况下比样本内的最优策略表现更好,并在实验中在多个任务中取得了最先进的性能。