May, 2024

GTA: 借助导引的增强离线学习中的生成轨迹增强

TL;DR离线强化学习中,利用生成轨迹增强(GTA)的数据增强策略可以提高数据质量并改善算法性能。