Jun, 2023

FP-IRL:基于 Fokker-Planck 的逆强化学习 —— 物理约束的马尔科夫决策过程方法

TL;DR提出了一种基于 Fokker-Planck(FP)方程的新型物理意识逆强化学习算法 FP-IRL,可以同时推断转移和奖励函数,无需事先估计转移动态,适用于转移函数不可访问的情况