ICLRMar, 2023

动态更新到数据比率:最小化世界模型过度拟合

TL;DR在强化学习等连续数据环境中,通过在未使用的一小部分数据上检测欠拟合和过拟合从而动态调整数据更新比率的新方法,比默认设置比更好的平衡欠拟合和过度估计,消除了手动设置超参数的需要,并使模型具有更高的健壮性,同时减少了必要的调试量。