Nov, 2022

自适应行为正则化的离线强化学习

TL;DR本文提出了自适应行为正则化(ABR)的方法改善已有机器学习数据集中存在的行为采样偏差,从而提高了离线强化学习的效率和稳定性,并在 D4RL 数据集上实现了最新算法中更好或相当的性能。