Oct, 2023

超越均匀采样:利用不平衡数据集的离线强化学习

TL;DR离线策略学习旨在利用现有的轨迹数据集来学习决策策略,而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块,从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明,在72个不平衡数据集、D4RL数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。