Jun, 2023

基于状态规约的动力转移数据策略优化

TL;DR通过学习具有相似环境结构但不同动力学的数据的稳态分布,使用稳态分布规范化策略并构建 SRPO 算法来解决 Reinforcement Learning 算法训练数据分布不同的问题,并在实验中验证了其有效性。