Jun, 2023

深入挖掘:利用基本对称性,提高离线强化学习的样本效率

TL;DR本文提出 Time-reversal symmetry enforced Dynamics Model 方法以增强离线 RL 在小数据集上表现,该方法可用于构建新的 TSRL 算法,对数据效率和泛化性能进行提升。