May, 2023

适应性策略学习用于附加任务

TL;DR本文提出一种名为 APG 的方法,结合 Bellman 最优原理和策略梯度方法,优化预训练策略以适应额外任务并保证收敛速率和样本复杂度,同时在多个数值模拟中表现良好。