Sep, 2023

离线强化学习中的等变数据增强技术

TL;DR我们提出了一种新的方法来解决离线强化学习中的泛化问题,通过学习动力学模型并检查其是否与固定类型的转换即状态空间中的平移等变,使用熵正则化增加等变集合并用结果转变的样本增强数据集,最后基于增强数据集使用现成的离线强化学习算法离线学习新策略,实验证明该方法可以大大提高对环境进行测试时的策略效果。