Jun, 2023
基于状态规约的动力转移数据策略优化
State Regularized Policy Optimization on Data with Dynamics Shift
Zhenghai Xue, Qingpeng Cai, Shuchang Liu, Dong Zheng, Peng Jiang...
TL;DR通过学习具有相似环境结构但不同动力学的数据的稳态分布,使用稳态分布规范化策略并构建 SRPO 算法来解决 Reinforcement Learning 算法训练数据分布不同的问题,并在实验中验证了其有效性。