Oct, 2023
f-策略梯度: 一种使用f-散度的目标条件化强化学习的通用框架
$f$-Policy Gradients: A General Framework for Goal Conditioned RL using
$f$-Divergences
TL;DR此研究论文介绍了一种名为 $f$-PG 的新型鼓励探索方法,通过最小化智能体状态访问分布与目标之间的 f-分歧来实现稀疏奖励环境下的优化策略,同时引入了熵正则化策略优化目标 $s$-MaxEnt RL 用于优化度量为 L2 的奖励,在多个环境中展示了与标准策略梯度方法相比更好的性能。