Mar, 2023

核密度贝叶斯逆强化学习

TL;DR介绍了一种使用基于条件核密度估计的贝叶斯逆转奖励学习(KD-BIRL)的算法,该算法能更有效地近似似然函数和应用于具有复杂和无限状态空间的环境,并在Gridworld环境和虚拟sepsis治疗任务中展示了其优势。